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Vorwort 



Angeregt von Hans Thomae und Gustav Adolf Lienert haben sich die Heraus- 
geber die Aufgabe gestellt, ein Handbuch der Allgemeinen Psychologischen 
Methodenlehre zu edieren. Ein solcher Band war schon bei der ersten Konzi- 
pierung der Handbuchreihe geplant, scheiterte zunachst aber an Schwierigkei- 
ten. zu denen auch der Stand dieser psychologischen Disziplin in den funfziger 
und sechziger Jahren im deutschsprachigen Raurn gehorte. Auch fur die nun 
vorliegende Ausgabe glaubten wir. nicht ganz auf Unterstiitzung aus dent 
nicht deutschsprachigen Raum verzichten zu sollen. Da nun im Rahmen des 
Handbuches der Psychologie der Methodenteil nicht mehr erscheinen konnte, 
wurde er auf Wunsch des Verlages Bestandteil der Enzyklopadie. 

Aus der Entstehungsgeschichte heraus und aus der Tatsache, daB es eine ver- 
gleichbare Publikation auch im Angelsachsischen nicht gibt, wird verstandlich, 
daB diese Bande im wesentlichen zwei Funktionen erfitllen mochten: eine 
systematische Darstellung des gegenwartigen Standes der psychologischen 
Methodenlehre zu geben und einige jener Llicken zu ftillen, die sich aus ver- 
schiedenartigen Griinden bei der Darstellung der Methoden in den friiheren 
Handbuchbanden bisher ergeben hatten. In einigen Handbuchbanden ist die 
fiir den jeweiligen Bereich spezifische Methodenlehre dargestellt worden, bei- 
spielsweise von Thomae (1959) die der Entwicklungspsychologie und von 
Graumann (1965) die der Motivationsforschung. Etwa verbliebene Llicken 
jener speziellen Methodenlehren wird eine Allgemeine Methodenlehre nicht 
ftillen wollen. Einige der in der friiheren Handbuchreihe erschienenen Arbei- 
ten, besonders solche im sozialpsychologischen Doppelband (z.B. von Cra- 
nach & Frenz, 1969, sowie Bredenkamp, 1969) sind jedoch in alien Bereichen 
der Psychologie von Bedeutung und in diesem Sinn Beitrage zu einer Allge- 
meinen Psychologischen Methodenlehre. 

Die Annahme, daB es sinnvoll sei, von einer Allgemeinen Psychologischen 
Methodenlehre zu sprechen, hat sich in unserem Fach erst im Laufe der Zeit 
durchgesetzt; erst die 1972 verabschiedete Rahmenprufungsordnung sieht ein 
Fach ,, Methodenlehre" vor - dann allerdings an erster Stelle im Kanon der 
Facher. Von Allgemeiner Methodenlehre zu sprechen, heiBt davon auszuge- 
hen, daB es einen genugend groBen und tragfahigen Bestand von Prinzipien 
und Verfahrensregeln gibt, der grundsatzlich in alien Bereichen der Psycholo- 
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gie und im wesentlichen in gleicher Weise anwendbar ist. Wir beschranken uns 
auf Forschungsmethoden, schliefien also z.B. therapeutische Methoden, iiber- 
haupt - wegen ihres anderen Zweckes - alle Interventionsmethoden aus. 
Wir fassen Psychologie als eine empirische Wissenschaft auf und beschranken 
uns daher auf Verfahren der Erhebung und Auswertung von Beobachtungen, 
gehen also beispielsweise auf hermeneutische oder rein mathematische und 
logische Methoden nicht ein. 

Um die Gliederung zu verdeutlichen und die Auswahl der Thenien zu begrttn- 
den, aber auch um eine Lesehilfe zu geben, sei ein idealisiertes Konzept des 
empirischen Forschungsprozesses skizziert. Bei der Konzeption dieses Model- 
les sind wir davon ausgegangen, daB zu empirischen Hypothesen Beobachtun- 
gen angestellt werden, die mit den prognostizierten Beobachtungsresultaten 
verglichen werden. Unter empirischen Hypothesen werden Aussagen liber 
den Zusammenhang von wenigstens zwei Variablen verstanden, die aufgrund 
des Ausgangs des Vergleichs beibehalten oder abgeandert werden. Verglichen 
werden erhaltene mit prognostizierten Daten, denen ein Datenmodell etwa in 
Form einer axiomatisierten MeBtheorie zugrunde liegt. Weichen die progno- 




Abbildung 1: Idealisiertes Model! des Forschungsprozesses 
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stizierten Daten von den erhaltenen ab und ist ein solches Ergebnis reprodu- 
zierbar, so kann man sich zu einer Abanderung der empirischen Hypothese 
entschlieBen. Ftthrt der Vergleich zu einer Ubereinstimmung zwischen beiden 
Datenstrukturen, wird die empirische Hypothese beibehalten. 

Abbildung 1 verdeutlicht, daB dieser Vergleich nicht fur schlicht theoriefrei 
beobachtbare Gegebenheiten durchgefiihrt wird: Hinter den Daten stehen eine 
Datentheorie und ein statistisches Strukturmodell. Nach einer Datentheorie 
miissen bestimmte Voraussetzungen erfiillt sein, damit etwa die empirischen 
Relationen auf einer Intervallskala in ein numerisches Relativ abgebildet wer- 
den. Der Vergleich zwischen prognostizierten und erhaltenen Daten auf dieser 
Ebene fiihrt zu einer Aussage ttber die Angemessenheit der Theorie fur die 
Daten. So kann sich etwa ergeben, daB die Daten ,,nur“ das Niveau einer 
Ordinalskala erreichen. Dies kann Auswirkungen fur die Formulierung des 
statistischen Strukturmodells haben. Z.B. kann man sich entschlieBen, mittels 
sog. nonparametrischer Verfahren fiir Rangskalen die empirische Hypothese 
zu priifen. Zu einem derartigen EntschluB kann man auch gelangen, wenn die 
Annahmen des statistischen Strukturmodells sich als unzutreffend erweisen. 
So kann man sich zu einer nonparametrischen statistischen Analyse entschlie- 
Ben, wenn die Daten etwa nicht die Voraussetzung einer Normalverteilung 
erfiillen. Statistisches Strukturmodell und Datentheorie sind, im Gegensatz zu 
der empirischen Hypothese, nicht aufgrund von Daten zu modifizieren. Sie 
konnen nur in der jeweiligen Situation angemessen oder unangemessen sein. 

Der Vergleich zwischen prognostizierten und erhaltenen Daten geschieht auf drei Ebe- 
nen. Es sollte deutlich sein, daB auf jeder Ebene andere Prognosen entstehen, die in 
Abb. 1 zusammengefaBt sind. Wichtig ist, daB eine Bewertung der empirischen Hypo- 
these nicht mittels theoriefrei angestellten Beobachtungen erfolgt, sondern daB hinter 
den Daten andere Theorien stehen, die fiir eine Untersuchungssituation angemessen 
oder nicht angemessen sein konnen. 

Die Komponenten der Abbildung 1 seien anhand eines Beispiels aus der Wahr- 
nehmungspsychologie verdeutlicht. Die empirische Hypothese, die gepriift 
werden soil, sei das Fechnersche Gesetz (vgl. dazu Tack in Band 3). Die 
Beobachtungssituation wird derart festgelegt, daB bestimmte Gewichte, in 
zufalliger Reihenfolge dargeboten, auf einer siebenstufigen Kategorienskala 
hinsichtlich ihrer Schwere beurteilt werden sollen. Abgesehen wird von weite- 
ren Beobachtungshinsichten (z.B. vom AusmaB der SchweiBsekretion beim 
Anheben der Gewichte). Erwartet wird, daB das kategoriale Urteil logarith- 
misch vom Gewicht abhiingt. Mit dieser Erwartung werden die tatsachlich 
angefallenen Daten statistisch verglichen. Dieser statistische Test zur Priifung 
des Fechnerschen Gesetzes unterliegt bestimmten Verteilungsannahmen, die 
getestet werden konnen. So muB etwa angenommen werden, daB die Wechsel- 
wirkungseffekte ,,log Gewicht x Versuchspersonen“ normalverteilt sind. Mit 
dieser ,, Prognose" kann die empirische Verteilung der Wechselwirkungseffek- 
te verglichen und damit die Angemessenheit des statistischen Verfahrens ge- 
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priift werden. Ferner muB unterstellt werden, daG die Kategorienskala eine 
Intervallskala der subjektiven EmpfindungsgroBen ist. Diese Annahme kann 
gepriift werden, indem die Axiome endlicher absoluter Differenzenstrukturen 
daraufliin getestet werden, ob sie erflillt sind (vgl. Westermann 1980). Ist dies 
nicht der Fall, so sind die Axiome dieser MeBstruktur damit nicht falsifiziert, 
sondern sie sind ftir die Untersuchung nicht erflillt. In diesem Fall kann dann 
auch die Kategorienskala zur Prilfung des Fechnerschen Gesetzes nicht ange- 
wendet werden, und es ist nach einem anderen Skalierverfahren zu suchen. ftir 
das die Axiome endlicher absoluter Differenzenstrukturen erfiillt sind. Das 
Ausweichen auf nonparametrische Tests zur Prilfung des Fechnerschen Geset- 
zes. wenn die subjektiven GroGen keine Intervallskala konstituieren, ist nicht 
moglich, da mit der Ableitung des Fechnerschen Gesetzes die Annahme einer 
Intervallskala verkniipft ist (vgl. Luce 1959, 1962; Rozeboom 1962). 

Die vorliegenden Bande gliedern sich, anhand der Abb. 1 erlautert, wie folgt: 
Gegenstand des ersten Teiles sind die wissenschaftlichen Beobachtungen; auch 
Aussagen iiber die Selbstbeobachtung. GemaG Abb. 1 handelt es sich um die 
,, Basis'" fiir die Beurteilung von empirischen Hypothesen. Hierzu sind auch 
die Artikel des Bandes 2 zu zahlen, die speziellen Erhebungsmethoden wie 
dem Q-Sort, dem semantischen Differential etc. gewidmet sind. Es geht um 
Forschungsmethoden zur Erhebung von Daten zur Prilfung spezieller Hypo- 
thesen; Erhebungsmethoden wie diese ergaben sich aus dem Bemiihen, das 
Gewinnen von Beobachtungen den jeweils untersuchten Gegebenheiten spezi- 
fisch anzupassen. In Band 3 wird das, was in Abb. 1 ,,Modelle fiir Daten"" 
genannt wird, behandelt, wobei zwischen ,,Messung und Skalierung“ und 
, .Tests'" unterschieden wird. Band 4 ist dem Bereich gewidmet, der in Abb. 1 
,,statistisches Modell"" heiGt, wobei allerdings nonparametrische Priifverfahren 
unberiicksichtigt bleiben, iiber die ein umfangreiches Handbuch von Lienert 
(1973, 1975, 1978) in deutscher Sprache orientiert. SchlieBlich finden sich im 
Band 5 Artikel, die iiber die Modellierung psychischer Prozesse und die Prii- 
fung empirischer Hypothesen unterrichten. 

Wie bereits ausgefiihrt, gibt Abb. 1 ein idealisiertes Modell des Forschungsprozesses 
wieder, das uns bei der Ordnung der Teile dieser Bande leitete. Selbstverstandlich 
wurde jeder Beitrag „fur sich" geschrieben, ohne daG die Autoren auf diese Leitvorstel- 
lungen verpflichtet wurden. Dies sollte bei einer Beurteilung der Abb. 1 im Hinblick 
auf die vorliegenden Artikel berucksichtigt werden. Vermutlich waren auch andere 
Ordnungsschemata denkbar gewesen, die zu teilweise anderen Zusammenstellungen 
der Artikel und/ Oder Selektionen der zu behandelnden Themen gefiihrt flatten. Wichtig 
ist vor allem, daG jeder Artikel fiir sich genommen dem Forscher die Informationen 
und Literaturhinweise gibt, die er sich fiir seine Arbeit erhofft. 

Die Planung dieser Bande sah die Beriicksichtigung weiterer Artikel vor, die 
nicht erschienen sind. da die Publikation dieses Bandes sich in unvertretbarem 
MaBe verzogert hatte. Wir verweisen hier vor allem auf die Faktorenanalyse, 
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die statistischen Kausalanalysen und die nonmetrische Skalierung, auf die teil- 
weise in einigen Beitragen kurz eingegangen wird, die aber eigenstandig repra- 
sentiert sein sollten. Zu diesen Themen sei deshalb auf neuere deutschsprachi- 
ge Literatur verwiesen. ilber Faktorenanalyse handeln die beiden Bucher von 
Revenstorf (1976, 1980) und der umfassende Artikel Pawliks (1977), wichtige 
Beitrage zu statistischen Kausalanalysen und eine Einflihrung in dieses Gebiet 
enthalt der dreibandige Reader von Hummell und Ziegler (1976), und zur 
nonmetrischen wie metrischen insbesondere theorieprufenden Skalierung ver- 
weisen wir auf Borg (1982). Auch die statistischen Einzelfallanalysen sollten in 
dieser Enzyklopadie vertreten sein. Da aber der Beitrag von Huber in Band 
VIII des Handbuches der Psychologie gerade fertiggestellt war, verzichteten 
wir auf eine weitere Publikation zu diesem Thema. 

Verschiedene Themen werden in diesen Banden mehrfach angesprochen, bei- 
spielsweise die Raschskalierung in mehreren Artikeln. Allerdings handelt es 
sich nach Meinung der Herausgeber nicht wirklich um Redundanzen, viel- 
mehr stehen die Ausflihrungen jeweils in einem anderen Kontext und gewin- 
nen von daher ihre eigene Berechtigung. Deshalb haben die Herausgeber die 
Autoren nicht gebeten, diese Passagen zu streichen. 

Die Herausgeber hatten auch erwogen, alle Autoren auf die gleiche Nota- 
tion und sogar auf die gleiche Terminologie (aber welche?) festzulegen. Uns 
schien jedoch der daflir erforderliche Aufwand in keinem Verhaltnis zum 
Gewinn an Lesbarkeit zu stehen, und eine einheitliche Terminologie hatte irn 
gilnstigsten Fall eine Homogenitat der Methodenlehre vorgetauscht, die nicht 
vorhanden ist; im ungilnstigsten Fall hatte sie die verschiedenen Ansatze ver- 
falscht. Die Anfertigung der Literaturverzeichnisse sollte den Konventionen in 
der Zeitschrift fur Sozialpsychologie folgen. Auch hierauf haben wir letztend- 
lich nicht bestanden; geachtet wurde lediglich auf Vollstandigkeit der An- 
gaben. 

Die einzelnen Artikel setzen auf unterschiedlichem Niveau Vorkenntnisse vor- 
aus. Die meisten gehen von jeneni Wissensstand aus, ilber den ein Psycholo- 
giestudent nach gut bestandener Prlifung im Fach Methodenlehre verfiigen 
sollte. Den Charakter einer Einflihrung haben die Bande also nicht. Neben 
den zahlreichen englischsprachigen Einfuhrungen konnen wir auf mehrere 
deutsche oder ilbersetzte verweisen (Bartenwerfer & Raatz 1979, Crano & 
Brewer 1975, Friedrichs 1973, Kerlinger 1978, Klapprott 1975, Selg & Bauer 
1971, Traxel 1964, Wottawa 1977). Gesamtdarstellungen, von denen groBe 
Teile auch ftir Psychologen relevant sind, finden sich in den Nachbarfachern, 
besonders der Soziologie (Konig 1962, van Koolwijk & Wieken-Mayser 1974). 
Erwahnt seien auch einige wenige psychologische Zeitschriften, in denen re- 
gelmaBig und gehauft Beitrage zur Methodenlehre erscheinen: Applied Psy- 
chological Measurement, British Journal of Mathematical and Statistical Psy- 
chology, Educational and Psychological Measurement, Journal of Mathemati- 




XII 



Vorwort 



cal Psychology, Multivariate Behavioral Research, Psychometrika, Psycholo- 
gical Bulletin, sowie die regelmaBigen ubersichten im Annual Review of Psy- 
chology. 1m deutschen Sprachbereich gibt es noch keine ausschlieBlich metho- 
denorientierte psychologische Zeitschrift, jedoch finden sich in alien wissen- 
schaftlichen Zeitschriften unseres Faches regelmaBig Publikationen zu metho- 
dischen Problemen der Psychologie. 

Es ware reizvoll, die historische Entwicklung im Detail nachzuzeichnen, die 
zur Begriindung der Allgemeinen Psychologischen Methodenlehre gefiihrt 
hat. Wie flir viele andere Disziplinen unseres Faches waren die Quellen hetero- 
gen, und zwischen verschiedenen Stromungen gab es kaurn Beriihrungen. Die 
alteste Tradition hat mit der Psychophysik die Behandlung der Frage aufzu- 
weisen, ob und wie die Variablen der Psychologie meBbar sind. Unabhangig 
von der Psychophysik tauchte das MeBproblem im Rahmen der Testtheorie 
auf, und schlieBlich, iiber Thurstone direkt mit der Psychophysik verbunden, 
in der Einstellungsmessung. Erst die letzten beiden Jahrzehnte haben zu Quer- 
verbindungen zwischen diesen MeBtraditionen gefiihrt. 

Nicht viel jiinger ist die Tradition, mit der ein Student unseres Faches meistens 
den ersten Kontakt hat, mit der Statistik, insbesondere der Inferenzstatistik, 
die durchweg mit der Planung und Auswertung von Experimenten verbunden 
ist. Als erste deutschsprachige Einfuhrungen sind hier die von Lazarsfeld 
(1929), Mittenecker (1952) und Hofstatter (1953) zu erwahnen. Querverbin- 
dungen zwischen Skalierung und Inferenzstatistik beobachtet man ebenfalls in 
den letzten Jahrzehnten. 

Weniger stiimiisch als bei den Auswertungsverfahren, die mehr und mehr als 
formale Modelle des jeweils untersuchten Bereiches begriffen werden, entwik- 
kelten sich die Erhebungsverfahren, die oft als Sammlung von Erfahrungen 
und praktischen Ratschlagen erscheinen. Guttmans (1959) Facettentheorie und 
die Analyse von Erhebungsverfahren durch Coombs (1964, insb. Kap. 2) 
konnten erste Ansatze fUr eine allgemeine Theorie von Erhebungsverfahren 
darstellen. Eine Geschichte der psychologischen Methodenlehre ist allerdings 
erst noch zu schreiben. 

Die Herausgeber haben einer Reihe von Personen fiir ihre Mitarbeit zu dan- 
ken. Die Diplom-Psychologen E. Erdfelder, J. Funke, T. Kindermann und 
P. Mann sowie die Studenten E. Hafner, M. Kruppert, M. Meyer und 
A. Schrameier (alle Trier) haben an der Erstellung der Register mitgewirkt und 
die Korrekturen besorgt. In Hamburg haben Dipl. -Psych. U. Droge und 
Dipl. -Psych. F. Mohazab diese Arbeiten ubernommen. Gedankt sei auch den 
Autoren, die ihre Beitriige fristgerecht fertiggestellt haben, fiir ihre Geduld. 
Die Artikel sind z. T. 1980, einige im Frtthjahr 1981 bei uns eingetroffen. 



J. B. 
H. F. 
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1. Kapitel 



Planung und Bewertung 
von wissenschaftlichen Beobachtungen 

Hubert Feger* 

1. 0 bersicht und Systematik 

Alle Aussagen liber den jeweiligen Gegenstandsbereich einer empirischen Wis- 
senschaft sind direkt oder indirekt auf Beobachtungen zurUckzufuhren. In 
einer (nichtapparativen) Beobachtung stellt sich durch und als unmittelbare 
Anschauung die Beziehung zwischen Beobachter und Beobachtungsgegen- 
stand her. Beobachtung ist ein ProzeB, in dent Beziehungen zwischen Gege- 
benheiten hergestellt werden. Welcher Art die zu erfassenden Gegebenheiten 
und Relationen ihrem Inhalt nach sind. bestimmen die theoretischen und prak- 
tischen Fragestellungen; aus dem Gehalt der Theorie ware abzuleiten, wie 
Beobachtungen als Beziehungen zwischen Elementen in formaler Hinsicht 
aufgefaBt werden miissen. Daraus ergeben sich Konsequenzen fur die Daten- 
analyse. Die Prlifung von Aussagen liber einen Gegenstandsbereich einer em- 
pirischen Wissenschaft wird als Prlifung der Ubereinstimmung von aus der 
Theorie abgeleitetem Sachverhalt mit beobachtetem Sachverhalt angelegt sein, 
wobei der Prufung logischer Merkmale der Aussagen selbst, etwa ihre Wider- 
spruchsfreiheit der Status einer notwendigen Voraussetzung zukommt. Letz- 
teres im allgemeinen systematisch zu analysieren ist eine der Aufgaben der 
Wissenschaftstheorie und der Logik. 

Dieses Kapitel befaBt sich nicht mit einer psychologischen Theorie des Beob- 
achtens durch Menschen als Beobachtern, weder mit den Prozessen der Wahr- 
nehmung, Beurteilung und des Gedachtnisses, die Beobachtungen ermogli- 
chen und deren Form und Inhalt beeinflussen, noch mit einer allgemeinen und 
differentiellen Theorie des Beobachters. Einiges zu dieser Thematik findet sich 
im Kapitel liber Verhaltensbeobachtung und Erlebnisbeschreibung (Feger 
& Graumann in diesem Band). Auch die Auswertung von Beobachtungen ist 



* Dank fur wesentliche Hinweise schulde ich C. F. Graumann, I. Borg und K. West- 
hoff. 
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im Gegensatz zu vielen Kapiteln nicht Gegenstand dieser Darstellung. Viel- 
mehr schildern und diskutieren wir allgemeine Prinzipien der Planung und 
Bewertung von Beobachtungen als wissenschaftlichen. Die Planung bezieht 
sich auf alle Fragen, welche Beobachtungen anzustellen und wie sie durchzu- 
fiihren seien. Die Bewertung umfaBt alle Fragen nach den Kriterien, die eine 
Beobachtung als wissenschaftliche erfullen muB, und wie diese Kriterien zu 
prlifen sind. Empirische Wissenschaften, und in ihnen verschiedene For- 
schungsgebiete, unterscheiden sich in dem AusmaB, in dent der Beobachtungs- 
prozeB standardisiert und instrumentalisiert ist. Der Ersatz des Beobachters 
durch Apparate beseitigt ganz oder teilweise die Probleme der Subjektivitat bei 
der Auswahl und Bewertung des konkret Beobachteten, nicht jedoch die Pro- 
bleme der Planung und Bewertung sowie der datentheoretischen Interpreta- 
tion von Beobachtungen. Nicht behandelt werden deshalb Probleme, die sich 
durch und bei Gebrauch technischer Apparatur, insbesondere Tonband- und 
Film- oder Videogeraten ergeben (z. B. Clarke & Ellgring, 1978; Longabaugh, 
1980), ebenfalls nicht Fragen der technischen Datenverarbeitung, Ablochung 
und Speicherung. Zur allgemeinen Methodenlehre gehoren definitionsgemaB 
auch nicht Probleme des Beobachtens, die sich aus der speziellen Natur des 
Beobachteten ergeben, z.B. Beobachtung von Sauglingen, Tieren in freier 
Wildbahn etc. Ferner wttrde die Grenze zur Systematik des Faches uberschrit- 
ten, wenn hier jene theoretischen Ansatze besprochen wlirden, deren empiri- 
sche Fundierung zumindest gegenwartig stark auf Beobachtung angewiesen 
scheint, wie Ethologie oder Humanokologie. SchlieBlich haben wir uns be- 
miiht, Uberschneidungen mit dem in diesem Band folgenden Kapitel und dem 
Artikel von v. Cranach und Frenz (1969) zu vermeiden. 

Ohne auch nur die klassischen oder jeweils neuesten Arbeiten vollstandig 
auflisten zu konnen, erwahnen wir vorwiegend deutschsprachige Literatur, die 
eine Einfuhrung und Ubersicht ermoglicht: Peak (1953), Konig (1962), Grau- 
mann (1966), Weick (1968), Jahoda et al. (1968), Grimier (1974), Hutt & Hurt 
(1974), FaBnacht (1979); insbesondere fur die Erfassung nonverbaler Verhal- 
tensweisen Scherer (1974), flir verbale Manz (1974), zum ethologischen Ansatz 
McGrew (1972), flir Verhalten in ,, naturalistic settings" des Kulturvergleichs: 
Longabaugh (1980), mit Beispielen aus der padagogischen Psychologie: Med- 
ley & Mitzel (1963), flir diese in der Entwicklungspsychologie seit langem 
gepflegte Methodik: Thomae (1959), Wright (1960), speziell die Kleinkindfor- 
schung: Simons & Papousek (1978); mit sozialpsychologischen Schwerpunk- 
ten: Heyns & Zander (1953), v. Cranach & Frenz (1969), Duncan & Fiske 
(1977); aus diagnostischer Perspektive: Hasemann (1964), mit Querverbin- 
dung zu Verhaltensmodifikation: Keut & Foster (1977), Mees & Selg (1977); s. 
auch Feger & Graumann in diesem Band. 
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2. Arten von Beobachtungen 

2.1 Allgemeine Ubersicht 

Bevor wir auf Planung und Bewertung fur Beobachtungen allgemein eingehen, 
geben wir einen iiberblick liber verschiedene Arten von Beobachtungen, die in 
der Psychologie und Nachbarwissenschaften eine Rolle spielen. Sie werden 
unterschieden nach den Bedingungen, unter denen sie zustande kommen, den 
Verfahren, wie sie gewonnen werden, und nach Besonderheiten des Beobach- 
tungsgegenstandes. 

Graumann (1966, S. 86) akzentuiert, wie sich Beobachtung, auch die noch 
nicht wissenschaftliche, von Wahrnehmung abhebt: ,,Die absichtliche, auf- 
merksam-selektive Art des Wahrnehmens, die ganz bestimmte Aspekte auf 
Kosten der Bestimmtheit von anderen beachtet, nennen wir Beobachtung. 
Gegenuber deni iiblichen Wahrnehmen ist das beobachtende Verhalten plan- 
voller, selektiver, von einer Suchhaltung bestimmt und von vorneherein auf 
die Moglichkeit der Auswertung des Beobachteten im Sinne der iibergreifen- 
den Absicht gerichtet.“ Wenn die iibergreifende Absicht ist, eine wissenschaft- 
liche Annahme zu priifen, und wenn sie in Planung und Bewertung bestimm- 
ten Kriterien gentigt, geht die vorwissenschaftliche in die wissenschaftliche 
Beobachtung liber. 

Alltagliche und wissenschaftliche Beobachtung unterscheiden sich nicht da- 
durch, wie Information gewonnen wird, nicht durch die Art der Prozesse, die 
im Beobachter ablaufen, sondern durch die Ziele, derentwegen die Beobach- 
tungen angestellt werden, und durch die Umstande, die wegen dieser Ziele 
aufgesucht oder hergestellt werden. Beobachtungen lassen sich nach deni Ver- 
fahren, wie sie zustande kommen, und dabei wieder nach verschiedenen Ge- 
sichtspunkten klassifizieren. Uns erscheint ein Schema von Graumann (1966) 
das in Tab. 1 wiedergegeben ist, sehr iibersichtlicht. Das Schema ist lediglich 
fiir die kontrollierte direkte Verhaltensbeobachtung ausgeflihrt. Soweit mog- 
lich sollte man sich diese Klassifikationskriterien nicht dichotom, sondern als 
Pole eines Kontinuums vorstellen. Die erste Klassifikation nach nichtkontrol- 
lierten und kontrollierten Beobachtungen, d.h. solchen, bei denen die Bedin- 
gungen, unter denen sie zustande kamen, bekannt sind, ist fiir manche Auto- 
ren gleichbedeutend mit der Unterscheidung zwischen nichtwissenschaftlicher 
und wissenschaftlicher Beobachtung, doch sollte nach Graumann gerade diese 
Klassifikation nicht als Dichotomie angesehen werden. Bezeichnet man eine 
Beobachtung als direkt. so kann dies in der Literatur dreierlei bedeuten: (1) 
Zwischen Beobachter und Beobachtetem steht kein Hilfsmittel, kein Apparat, 
Test o.a. Graumann spricht dann - als fiinftem Kriterium - von vermittelter 
vs. unvermittelter Beobachtung. Der Einsatz einer Blickbewegungskamera 
fiihrt also zu direkten, vermittelten Beobachtungen. (2) Zwischen Beobach- 




4 



Hubert Feger 



tung einerseits, Beurteilung sowie Registrierung andererseits liegt kein groGe- 
rer Zeitraum; die retrospektive Rekonstruktion bei Fallstudien ware demnach 
als indirekte Beobachtung zu klassifizieren. Graumann jedoch bezeichnet eine 
Verhaltensbeobachtung dann als indirekt, wenn (3) sie sich nicht auf das Ver- 
halten selbst, sondern auf dessen Spuren, Auswirkungen und Objektivationen 
richtet. Zu diesen indirekten Verfahren gehort z.B. die systematische Inhalts- 
analyse. 

Die teilnehmende Beobachtung, in der ein Beobachter fur die Beobachteten 
einen erkennbaren Teil der Beobachtungssituation ausmacht, wird im folgen- 
den Abschnitt behandelt. Als unwissentlich bezeichnet man Beobachtungsver- 
fahren, bei denen gegeniiber den Beobachteten die Tatsache, daB sie beobach- 
tet werden, so weit wie moglich verborgen oder kaschiert wird. 



nicht-kontrollierte Beobachtung kontrollierte Beobachtung 




indirekt direkt indirekt direkt 




nicht-teilnehmend teilnehmend 




vermittelt unvermittelt unvermittelt 



aktiv passiv 

Abb. 1: Schema der Methoden der Verhaltensbeobachtung (nach Graumann, 1966) 



Die herkommliche Unterscheidung zwischen freier und systematischer Beob- 
achtung greifen v. Cranach & Frenz (1969, S. 269) auf. Wahrend freie Beob- 
achtungen ,,ohne methodische Einschrankung“ vorgenommen werde, gesche- 
he bei der systematischen Beobachtung die ,,Anwendung von Beobachtungs- 
systemen als MeGverfahren, welche die quantitative Erfassung operational de- 
finierter Variablen mit angebbarer Objektivitat, Zuverlassigkeit und Giiltigkeit 
erlauben“. 
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2.2 Teilnehmende Beobachtung 



Da es flir Verhaltensbeobachtung wichtig ist anzugeben, auf wen das Verhal- 
ten des Beobachteten gerichtet ist, muB die Rolle des Beobachters in der 
Beobachtungssituation untersucht werden, insofern und insbesondere als er 
auch fur die beobachteten Personen Teil ihrer Situation sein kann. Diese Pro- 
blematik ist bei der Entwicklung der Methode der teilnehmenden Beobachtung 
(participant observation) durchweg gesehen worden (Whyte 1953 als Klassi- 
ker, Schwartz & Schwartz 1955, Kluckhohn 1956, McCall & Simmons 1969, 
Friedrichs & Llidtke 1973). Falle, in denen schon die bloBe Anwesenheit eines 
Beobachters zu anderem Verhalten fiihrte als in Situationen ohne einen Beob- 
achter, sind schon frith berichtet worden, etwa von Polansky et al. (1949) bei 
verhaltensauffalligen Kindern. Die Frage der Reaktivitat ist in jiingster Zeit 
ausfiihrlicher bei der Erforschung von Verhaltenseinschatzungen untersucht 
worden und soil im Kapitel von Feger und Graumann dargestellt werden. 

Teilnehmende Beobachtung verlangt in der Regel jedoch rnehr als bloBe An- 
wesenheit, oft voile Mitgliedschaft des Beobachters in der untersuchten sozia- 
len Gruppierung. Dies wird verstandlich, wenn man sich die hauptsachlichen 
Anwendungsbereiche dieser Methodik vergegenwartigt: primitive Kulturen. 
Subkulturen, Kommunen, Krankenhauser, Gefangnisse, Fabriken, Burokra- 
tien, Militar, Kulte, Familien, Verbrecherbanden. Grimier (1974) verweist in 
Anlehnung an Kunz auf drei nach der Rolle des Sprachsystems unterschiedene 
Forschungs-Situationen, in denen die teilnehmende Beobachtung eingesetzt 
werden konne: Erstens Situationen, in denen Beobachter und Beobachtete 
iiber ein unterschiedliches Sprachsystem verfiigten, wie etwa in der Verhal- 
tensforschung an Tieren; zweitens Situationen, in denen Beobachter und Be- 
obachtete zwar ein unterschiedliches Sprachsystem haben, jedoch wenigstens 
teilweise lernen kbnnen, eine gemeinsame Sprache zu benutzen, beispielsweise 
bei ethnologischen Untersuchungen in fremdsprachigen Kulturen; drittens 
Forschungssituationen, in denen zwar ein gemeinsames Sprachsystem besteht, 
jedoch Unterschiede und Abweichungen vorkommen, die das Verstandnis 
eines Beobachters fur eine Situation beeintrachtigen konnen, z.B. bei Unter- 
suchungen mit Kleinkindern, Geisteskranken und kulturellen Subgruppen. 

McCall & Simon (1969, S. 3) beschreiben, was unter teilnehmender Beobach- 
tung bei ihrer Anwendung faktisch verstanden wird: 

is most sensibly regarded, operationally, as the blend of methods and techniques 
that is characteristically employed in studies of social situations or complex social 
organizations of all sorts. These are studies that involve repeated, genuine social in- 
teraction on the scene with the subjects themselves as a part of the data-gathering 
process." 
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An dieser Umschreibung sind uns zwei Punkte wichtig, auf die wir weiter 
eingehen wollen, zum einen der Hinweis, daB teilnehmende Beobachtung 
typischerweise eine Kombination von Methoden darstellt, und daB sie den 
Beobachter in eine soziale Interaktion einbindet. Das Wesen der Methode 
(und die Quelle ihrer Schwierigkeiten) besteht darin, daB der Beobachter im 
sozialen Feld eine bestimmte Rolle zu spielen hat, und somit nicht nur eine 
ohnehin oft schwierig als solche zu definierende ,, representative" Auswahl des 
Feldes den Wert der Beobachtungen bestimmt, sondern auch das Geschick, 
mit dent der Beobachter eine ihm angemessen erscheinende Rolle wahlt und 
diese spielt. Die Rolle muB vom Beobachter so ubernommen werden, oder es 
muB von denen, die solche Rollen gewohnlich spielen, so ein geeigneter Beob- 
achter rekrutiert werden, daB das soziale Feld nicht verfalscht wird. Ob dies 
gelungen ist. kann man bisweilen aus den Korrelationen mit Daten erschlie- 
Ben, die mit Hilfe anderer Verfahren, insbesondere durch unwissentliche Be- 
obachtung gewonnen wurde, oder - fur den typischen Anwendungsbereich 
realistischer - aus Ubereinstimmung von eigenen Beobachtungen mit den 
Berichten von Informanten. (Zu spezifischen Problemen z.B. der Informan- 
tenauswahl, der Generalisierbarkeit der Befunde, moglicher Veranderung des 
Kategoriensystems des Beobachters bei langdauernder Interaktion und der 
Priifung der internen Validitat siehe insb. McCall & Simons und die dort 
abgedruckten Artikel). 



3. Die Planung von Beobachtungen 

Bei der Planung muB zunachst entschieden werden, was zu beobachten ist. 
Fur diese Entscheidung muB das Universum der Beobachtungen definiert, die 
Einheit der Analyse bestimmt und das Kategoriensystem entwickelt werden. 
Danach sucht man Antworten auf die Frage, welche der unter diesen Vorgaben 
meist zahlreichen moglichen Beobachtungen tatsachlich realisiert, wie also 
eine Auswahl aus den Universen von Personen, Situationen, Zeitpunkten etc. 
getroffen werden soil. 



3.1 Das Universum von Beobachtungen 

Um die flir die folgenden Darlegungen maBgebliche Facettentheorie (Guttman 
1959, 1971; im folgenden nach Borg, 1977) einzufiihren, skizzieren wir zu- 
nachst eine Studie von Guttman & Guttman (1976), die sich von den meisten 
Anwendungen der Facettentheorie dadurch unterscheidet, daB sie sich nicht 
auf die Konstruktion von Test- oder Fragebogenitems und der Erklarung ihrer 
korrelativen Zusammenhange bezieht, und daB sie eine Sekundaranalyse be- 
reits vorliegender Beobachtungen in mehreren Experimenten zu StreBindika- 
toren bei Mausen darstellt. Facettentheoretische Analysen von Beobachtungen 
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finden wir auch bei Canter (1977, 1977b) im Bereich der Architektur- und 
Umweltpsychologie. 

Bei der Durchsicht einer Reihe von Untersuchungen zu emotionalem Verhal- 
ten von Mausen stellten Guttman & Guttman fest, daB die Tiere unter ver- 
schiedenartigen Bedingungen beobachtet worden waren. Diese verschiedenen 
experimentellen Situationen wie ,,offener Raum", ,,Laufrad“, Schwimmlaby- 
rinth“ usw. stellen verschiedene Elemente einer Facette ,,experimentelle Situa- 
tionen“ dar, wobei von der Facette vermutet wird, daB ihre Elemente zu StreB 
in unterschiedlichem AusmaB ftihren. Die Beobachtungshinsicht in der unter- 
suchten Forschung waren MaBe der Frequenz, der Latenz und der Dauer. Da 
sich nach Ansicht von Guttman & Guttman das AusmaB des StreB in diesen 
,,zeitlichen Merkmalen" unterschiedlich zeigen kann, stellen diese Merkmale 
eine weitere Facette dar. SchlieBlich zeige sich StreB in Verhaltensweisen, die 
entweder der willkiirlichen Kontrolle unterliegen, wie z. B. Dauer des Verblei- 
bens im offenen Raum. oder vom autonomen System gesteuert werden, z.B. 
Harn lassen und Koten. Die Art der Kontrolle stellt somit eine dritte Facette 
dar. Variation innerhalb einer Facette konne zu hohen oder niedrigen Auspra- 
gungen des StreB fuhren: diese abhangige Variable stellt die durch die Facetten 
zu erklarenden Beobachtungen dar, Beobachtungen, an denen hier das unter- 
schiedliche AusmaB an StreB interessiert. 

Verallgemeinert man dieses Beispiel zu dem , .general paradigm of empirical 
research in the social sciences" (Borg, 1979, S. 65), dann sieht man, daB drei 
Komponenten analytisch unterschieden werden: Eine Population P, die mit 
einer Menge Reize S konfrontiert wird und auf diese mit den Reaktionen R 
antwortet. P stellt in der Methodik der wissenschaftlichen Beobachtung die zu 
beobachtenden Menschen und Tiere dar, S die Variablen der Beobachtungssi- 
tuation, R die fur die theoretische oder praktische Fragestellung interessieren- 
den Verhaltensweisen. Die Beziehung dieser drei Komponenten zueinander 
laBt sich als Abbildungssatz (mapping sentence) schreiben: 

PxS^R 

Das kartesische Produkt P x S stellt den Definitionsbereich (domain), R stellt 
den Bildbereich (range) dar; der Pfeil symbolisiert die Abbildung von P x S in 
R und kann als ,,ist verkniipft mit“ gelesen werden. Die Festlegung von Defin- 
itions- und Bildbereich stellt das Universum von Beobachtungen (Universe of 
observations) her. Eine konkrete Beobachtung besteht dann - wenn man sie 
von ihrer Leistung her charakterisiert - in der Zuordnung von Elementen des 
Definitionsbereiches zum Bildbereich. 

Im einfachsten Fall bestehen P, S und R jeweils aus nur einer Menge (Facette), 
jedoch kann jede Komponente selbst ein kartesisches Produkt sein. Im Beispiel 
lautet der Abbildungssatz: 
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„Das Ausmafi, in dem Tier (X) Strefi zeigt in 



den zeitlichen Merkmalen 



durch Auftreten von 



A: zeitliche Merkmale 

{ a x Frequenz 'I 

a 2 Latenz > 

a 3 Dauer J 

B: Art der Kontrolle 

f tq autonomen } 

| b 2 willkiirlichen J 



Verkalten in einer strehhafteti (neuen) 

C: 



Situation im 




Experimentellen Situation 
Labyrinth 
offenen Raum 
Rohre 



etc. 



R 

( hohen 

niedrigen 



Anzeichen von Strefi." 



In diesem Beispiel hat S drei Facetten: A, B und C. P, die Variable ,,Tier (X)“, 
ist nicht weiter ausgefilhrt. Dies hatte - waren die Forscher daran interessiert 
gewesen und hatten entsprechende Arbeiten fiir die Sekundaranalyse vorgele- 
gen - leicht geschehen konnen, beispielsweise indent eine Facette verschiede- 
ne Zuchtstamme von Ratten unterscheidet, die auf StreB unterschiedlich rea- 
gieren. 

Ein wesentlicher Gewinn bei der Anwendung der Facettentheorie zur Planung 
und Analyse wissenschaftlieher Beobachtungen kann in der hierbei geforder- 
ten Definition der Facetten bestehen, weil so die tatsachlich berilcksichtigte 
oder ntdgliche Gesamtheit von Beobachtungen angegeben wird. Daraus kon- 
nen nicht nur Vorschriften fiir das Ziehen der Stichproben (z.B. fiir jede 
Facettenkombination mindestens eine Beobachtung) abgeleitet und begriindet 
werden, vielntehr wird oft erst auf diese Weise eine genaue Formulierung der 
Fragestellung erzwungen und der Bereich der Verallgemeinerbarkeit festge- 
legt. Letzteres behandelt die spater besprochene Generalisierbarkeitstheorie. 
Die Priifung der konvergierenden und diskriminierenden Validitat, die spater 
ebenfalls dargestellt wird, stellt facettentheoretisch die Analyse der Facetten 
„Inhalte“ und ,,Methoden“ der untersuchten Variablen dar. Ferner kann man 
bestimmte Prinzipien heranziehen, um die Struktur im Bildbereich aus der 
Struktur des Definitionsbereiches vorherzusagen. In der erwahnten Reanalyse 
konnten Guttman & Guttman beispielsweise zeigen, daB die Hohe der Korre- 
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lationen zwischen den verschiedenen StreBindikatoren davon abhangt, hin- 
sichtlich wievieler und welcher Facetten die Beobachtungen Gemeinsamkeiten 
aufwiesen. Diese Struktur der korrelativen Beziehungen zwischen den ver- 
schiedenen Indizes, dargestellt mit Hilfe einer multidimensionalen Skalierung, 
erwies sich auBerdem als iiber die verschiedenen Experimente hinweg ver- 
gleichbar. 

Wir besprechen nun einige in Psychologie und Nachbarwissenschaften haufige 
spezielle Falle der Konkretisierung der Mengen P, S und R. Bei der facetten- 
theoretischen Betrachtung von Tests, Einstellungs- und Personlichkeitsfragen- 
bogen werden die Verhaltensrealisationen an verschiedenen Personen betrach- 
tet, die nach demographischen oder zuvor erhobenen differentialpsychologi- 
schen Merkmalen geordnet sein konnen oder lediglich durch ihre im Namen 
festgehaltene Identitat als unterscheidbare Elemente dieser einen oder aller 
personenbeschreibenden Facetten festgestellt werden. S besteht aus Items, die 
beispielsweise in einem Intelligenztest so in mehrere Facetten geordnet werden 
konnten, daB der Guilfordsche Wiirfel Pate steht. Beobachtet wird, wie eine 
Person auf ein Item reagiert, dabei konnen im Bildbereich z.B. bei Leistungs- 
tests sowohl Richtigkeit als auch Schnelligkeit als auch Qualitatsmerkmale der 
Antwort spezifiziert werden. 

Eine Facette kann auch nur ein Element aufweisen. Dies wird in der Unter- 
scheidung verschiedener Strategien zum Ziehen von Verhaltensstichproben 
deutlich (s.u.). Wenn der Merkmalstrager zugleich der Beobachter ist, dann 
haben wir den Fall der Selbstbeobachtung vor uns. Der Beobachter beschreibt 
dabei, sei es gegenuber sich selbst, oft gegenuber anderen, deni Untersucher 
etwa, sein Erleben und Verhalten, z.B. seine Reaktionen auf verschiedene 
Farben. Im Abbildungssatz konnen dabei durchaus mehrere Personen als Ele- 
mente einer Facette vorgesehen sein, etwa vollstiindig (completely crossed) 
oder nur teilweise (nested) verschiedenen Untersuchern zugeordnet. Wesent- 
lich ist, daB bei dieser Beobachtungsart die Basis fur iiber Personen verallge- 
meinernde Aussagen in Aquivalenzannahmen bestehen muB, etwa der Art: 
Zwei Personen meinen das Gleiche, wenn sie beim Vergleich zweier beleuchte- 
ter Flachen eine als ,, heller" bezeichnen. Die Menge der Merkmalstrager kann 
selbst als kartesisches Produkt P x P geschrieben werden, wenn beispielsweise 
die (sozialen) Beziehungen zwischen Personen, Tieren, Gruppen etc. beobach- 
tet werden sollen. Bei Planen mit wiederholten Beobachtungen kann man in 
den Definitionsbereich die Facette ,,Zeitpunkt“ aufnehmen; Levy & Guttman 
(1975) berichten eine facettentheoretisch angelegte Untersuchung mit fiinf 
wiederholten Messungen. 

Beobachtungsplane unterscheiden sich unter anderem danach, wie expliziert 
und vorstrukturiert Definitions- und Bildbereich durch voraufgegangene wis- 
senschaftliche Arbeit sind. Im einen Extremfall, in der Regel bei Datengewin- 
nung in einem Experiment, ist vor Beginn der Beobachtung festgelegt, wie alle 
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Facetten definiert sind, d.h. welche Elemente sie enthalten oder enthalten 
konnen. Im anderen Extrem, oft in der Feldbeobachtung, besteht bisweilen 
primar die wissenschaftliche Leistung darin, uberhaupt ,,Beobachtenswertes“ 
zu finden, d.h. hier: die Facetten zu definieren und einander zuzuordnen. 
Noch einige Querverweise, um zu erlautern, in welcher Hinsicht wir das 
facettentheoretische Vorgehen ftir fundamental halten: Einige Arbeitsrichtun- 
gen in der Psychologie befassen sich damit zu bestimmen, mit welchen und 
wie vorstrukturierten Mengen von Kategorien alltagliche und wissenschaftli- 
che Beobachtungen angestellt werden. Forschungen zur „impliziten Person- 
lichkeitstheorie“ ermitteln u.a., welche Elemente der Definitionsbereich bei 
der Beschreibung von Personen enthalt, und wie die multivariate Struktur 
dieses Bereiches sich aus der Kombination der Facetten ergibt. Nosologische 
Klassifikationssysteme der psychologischen und psychiatrischen Diagnostik 
sollten m.E. als Abbildungssatze geschrieben werden, so daB Symptomkorre- 
lationen erklarbar erscheinen. Einstellungstheorien (z.B. Fishbein & Ajzen 
1975, Feger 1979) spezifizieren verschiedene Mengen von Komponenten und 
deren Bewertung, wobei z.T. die Vpn selbst die Elemente der Menge gene- 
rieren. 



3.2 Bestimmen der Beobachtungseinheit 

Die Genauigkeit, mit der die Komponenten im Abbildungssatz festgelegt wer- 
den konnen, ist nicht unbegrenzt. Oft tritt an die Stelle einer Menge in S ein 
ausgearbeitetes Kategoriensystem. In ihm, in der Instruktion und in der Beob- 
achterschulung versucht der Forscher, die Beobachtungseinheit so prazise wie 
moglich festzulegen, Dabei tritt zu der inhaltlichen Bestimmung dessen, was 
beobachtet werden soil - die meistens im Kategoriensystem vorgegeben wird 
der Versuch des Forschers, vor allem die zeitliche Dauer, und auch den 
raumlichen Bereich einer einzelnen Beobachtung festzulegen. Der Forscher 
versucht, den Beobachter dazu zu bringen, den Verhaltensstrom in moglichst 
eindeutig angebbarer Weise in Zeitabschnitte zu gliedern. SchlieBlich will ein 
Forscher oft nicht nur wissen, was beobachtet wurde, sondern auch, wann 
und wo. So sehr sich ein Forscher auch bemiiht, den Beobachter in dieser 
Hinsicht so genau wie moglich anzuleiten, er stoBt doch auf psychologische 
Grenzen des Beobachters, die im menschlichen Wahrnehmungssystem be- 
griindet sind. Hier uberschneiden sich eine allgemeine Methodenlehre der 
Beobachtung und die Wahrnehmungspsychologie; einige Aspekte dieser The- 
matik behandeln Feger & Graumann (in diesem Band). 

Wie nun im Zusammenspiel von Forscher und Beobachter - auch wenn eine 
Person beide Rollen spielt - die Definition der Beobachtungseinheit ausge- 
handelt wird, hat ftir die Beobachtungsergebnisse weitreichende Folgen. Aus 
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Arbeiten des Kreises um Newtson (1973, 1976, Newtson & Enquist 1976, 
Newtson et al. 1977; s.a. Feger & Graumann in diesem Band) wissen wir, dab 
Beobachter spontan selbst das Beobachtete in Einheiten untergliedern. DaB 
sich unterschiedliche Ergebnisse einstellen konnen, wenn entweder die zeitli- 
che Ausdehnung vorgegeben oder die Dauer des beobachteten Phanomens 
vom Beobachter selbst festgelegt wird, berichten Hayes et al. (1970). Einige 
Autoren betonen nun. man solle die Wahl der Einheit nicht dem Beobachter 
iiberlassen, so z.B. Grlimer (1974, S. 41): ,,Die Definition von Beobachtungs- 
einheiten wird in strukturierten Beobachtungen nicht dem Beobachter selbst 
iiberlassen bleiben konnen, sondern wird zu einer spezifischen Aufgabe eines 
Forschers oder Untersuchungsleiters werden niiissen. Aufgrund seiner Kennt- 
nisse iiber Strukturen und Verhaltensablaufe in einem Beobachtungsfeld ist er 
in der Lage, Beobachtungseinheiten festzulegen.' 1 Und so legen auch v. Cra- 
nach & Frenz (1969, S. 286) in ihrer Definition fest: ,,Als Beobachtungseinheit 
wird derjenige Bestandteil in einem Verhaltensablauf bezeichnet. der dem Un- 
tersucher als kleinstes, nicht reduzierbares Ereignis zur Analyse des Verhaltens 
notwendig erscheint.“ Die Notwendigkeit. die Einheit durch den Forscher 
vorzugeben, wird mit den weitreichenden Folgen begriindet, die sich aus der 
Wahl der Einheit ergeben: ..Einmal legt man mit der Enge bzw. Breite der 
Beobachtungseinheit zugleich die Variationsmoglichkeiten fest, die das Beob- 
achtungssystem bei der Abbildung des realen Geschehens zulaBt. Zum ande- 
ren muB man alle Falle, die einer Beobachtungskategorie zugeordnet worden 
sind, als untereinander invariant ansehen.“ (v. Cranach & Frenz, 1969, S. 
286). 

Ferner ist die Wahl der Einheit fiir die spater behandelte Frage der Beobachter- 
iibereinstimmung relevant. Idealerweise stimmen Beobachter dann iiberein, 
wenn sie Gleiches beschreiben. Die Beobachtungseinheit festzulegen bedeutet 
unter diesem Gesichtspunkt einen Versuch, zur Beobachtung des Gleichen 
anzuregen. Moglicherweise gibt die zu untersuchende Fragestellung vor, wie 
aus theoretischen oder praktischen Grimden die Einheit gewahlt werden muB. 
Durch die Wahl der Einheit wird das ..Auflbsevermogen eines Beobachtungs- 
ansatzes“ (FaBnacht, 1979) festgelegt. Das, was bei der Beobachtung als Ein- 
heit zusammengefaBt und beschrieben wird. kann in der Datenanalyse nicht 
mehr differenziert werden. Bales (1950) gibt zur Beschreibung von Interaktion 
in Problemlosegruppen zwolf globale Kategorien vor, wodurch umfassende 
Einheiten gebildet werden diirften, wahrend Frey & Pool (1967) allein 125 
verschiedene Kopfstellungen einer sitzenden Person unterscheiden. Man sollte 
jedoch festhalten, daB die Beobachtungseinheit letztlich vom Beobachter ge- 
bildet wird, wenn auch sein Spielraum dabei durch genaue Instruktion, Trai- 
ning u.a. eingeschrankt werden kann. Die Ubereinstimmung bei der Segmen- 
tierung sollte gegebenenfalls geprlift werden. Die Grenze des Auflosevermo- 
gens der Beobachter ist erreicht, wenn die VerlaBlichkeit der Unterscheidun- 
gen zu gering wird. 
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Wie Einheiten gebildet werden, unterscheiden Kalbermatten & v. Cranach 
(1980) nach vier Gesichtspunkten. Sie akzentuieren ,,natiirliche“ gegeniiber 
,,kunstlichen” Einheiten. Natiirliche Einheiten sind „bereits vor dent wissen- 
schaftlichen ProzeB vorhandene Unterscheidungstendenzen des Beobachters“, 
z.B. ob eine Person lacht oder nicht. Kiinstliche sind „theoretisch fundierte, 
im ForschungsprozeB gewonnene Merkmale", ob eine Person beispielsweise 
die Wangenmuskeln aktiviert. Zweitens wird zwischen sozial bedeutungsvol- 
len und physikalisch definierten Einheiten unterschieden. Bei ersteren werden 
die Bedeutungen von der sozialen Gemeinschaft zuerkannt. Sie lassen sich 
feststellen an der Ubereinstimmung, mit der Mitglieder der Gemeinschaft sie 
definieren, und ihre Funktion sei es, den „mehr oder minder reibungslosen 
Ablauf der Interaktion zu gewahrleisten“. Drittens werden funktionale gegen- 
iiber strukturellen Einheiten unterschieden. Funktionale seien ,,dynamisch 
konzipiert“, sie hielten ,,die wechselseitige Auswirkung einer Einheit auf eine 
andere und auf das Gesamtergebnis des Verhaltens fest“. Drohen wird als 
Beispiel genannt; die geballte Faust ware ein Beispiel flir strukturelle Einheits- 
bildung. Viertens wird, wie auch sonst haufig in der Literatur, zwischen mola- 
ren und molekularen Einheiten unterschieden, nach der ,,Hohe des Abstrak- 
tionsgrades“ oder deni Umfang der Zusammenfassung. 

Kalbermatten & v. Cranach vertreten dann die Auffassung, bei der Analyse 
menschlicher Handlungssysteme sei es erforderlich, verschiedene, hierarchisch 
geordnete Organisationsebenen der Einheiten zu unterscheiden. Jede Einheit 
einer hoheren Ebene lasse sich in Untereinheiten der nachsttieferen Ebene 
aufgliedern; die Einheiten verschiedener Ebenen unterschieden sich auch qua- 
litativ, da die hoheren Einheiten in der Regel von ihrer Funktion her und 
durch soziale Bedeutungsverleihung definiert seien. Eine wesentliche Aufgabe 
der Forschung bestehe dann in der Untersuchung des genauen Zusammenhan- 
ges zwischen Einheiten verschiedener Ebenen (z.B.: Welche Einheiten der 
tieferen Ebene - etwa Ballen der Faust und Heben der Stimme - werden wie 
kombiniert, damit die Einheit ,,Drohen“ entsteht?). 



3.3 Kategoriensysteme 

Der Bildbereich eines Abbildungssatzes legt fest, welcher Aspekt am Beobach- 
teten untersucht werden soil. Im einfachsten Fall, wie im StreBbeispiel, ist dies 
lediglich eine Variationsdimension, eine Hinsicht, namlich das AusmaB des 
Stresses, das sich in verschiedenen Verhaltensweisen unter verschiedenen Be- 
dingungen zeigt. Eine Kategorie beschreibt Auspragungen von Reaktions- 
merkmalen, die qualitativ oder quantitativ sein konnen. Variation kann unter 
den gleichen Bedingungen und an den gleichen Verhaltensweisen in rnehr als 
einer Hinsicht unterschieden und zugleich beobachtet werden. Die Auflistung 
dieser Hinsichten in ihren qualitative!! und quantitativen Abstufungen stellt 
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das Kategoriensystem dar. Ein Kategoriensystem stellt also die Unterschei- 
dungen zusammen, die der Beobachter treffen kann, und legt fest, bei welchen 
Zustanden und Prozessen am Beobachteten er sie treffen soil. Wir sprechen 
von System, weil die Unterscheidungsmoglichkeiten mehr oder weniger gere- 
gelt aufeinander bezogen sind, etwa durch die Vorschrift, das Beobachtete 
solle nur einer Abstufung von mehreren bei einer Kategorie zugeordnet wer- 
den konnen. Zum Kategoriensystem i.e.S. kommen haufig noch Anweisun- 
gen hinzu, kodifizierte Anleitungen an den Beobachter, wie er das Beobachte- 
te erfassen, zuordnen und registrieren soli, was das Kategoriensystem i. w. S. 
ausmacht. 

V. Cranach & Frenz (1969) wie auch Medley & Mitzel (1963) unterscheiden 
drei Arten von ,,Beobachtungssystemen“, und zwar Zeichen-Systeme, Kate- 
gorien-Systeme und Schatzskalen (rating scale format). Ein einfaches Zeichen- 
system bestunde beispielsweise darin, daB ein Beobachter imrner dann, wenn 
eine Person bei Rot eine Arnpel passiert, einen Registrierknopf driickt. Das 
Uberschreiten der Markierungslinie ware ftir ihn ein Zeichen, alles nicht als 
Zeichen definierte Verhalten bleibt unregistriert. Eines der bekanntesten Kate- 
goriensysteme im Sinne von Medley & Mitzel ist das von Bales (1950, 1968; 
siehe dazu auch Griimer, 1974, Manz, 1974). In der Regel hat der Beobachter 
bei diesen Kategoriensystemen nicht nur - wie bei Zeichensystemen - zu 
entscheiden, ob ein bestimmtes Verhalten aufgetreten ist, sondern auch wel- 
ches von den einander ausschlieBenden Moglichkeiten des meist als vollstandig 
konzipierten Kategoriensystems. 

Weitere Beispiele fur Kategoriensysteme sind das von Caldwell (1969), das 
sich auf Verhalten von Kindern bezieht, oder das von Kaufman & Rosenblum 
(1966) ftir das Sozialverhalten von Primaten; Simon & Boyer (1974) geben eine 
Ubersicht iiber 99 Systeme. Ausgearbeitete Systeme von Ratingskalen finden 
sich z.B. in Thomae (1968, s. auch Rudinger & Feger, 1970). 

Viele Systeme sind keine reinen Zeichen-, Kategorien- oder Schatzskalensyste- 
me. Fur ihre Herleitung sind selten theoretisch so konsistent systematisierte 
Annahmen wie bei Bales vorhanden, doch sollte der Weg von der Fragestel- 
lung des Forschers zur Auswahl und Formulierung der Kategorien so einsich- 
tig und zwingend wie moglich sein; die Facettentheorie konnte flir die Ablei- 
tung von Kategoriensystemen verwendet werden. Viele Kategoriensysteme 
versuchen in dem Sinne vollstandig zu sein, daB alles beobachtete Verhalten 
einer Kategorie zugeordnet werden kann, und sei es einer Restkategorie, in die 
alles nicht klassifizierbare eingewiesen wil'd. Dadurch entstehen logische Ab- 
hangigkeiten zwischen den Kategorien, die die statistische Auswertung er- 
schweren. Wenn von zwei Kategorien Kategorie A als ,,soziales Verhalten" 
und B als ,,nicht-soziales Verhalten" definiert sind, muB sich perfekter negati- 
ver Zusammenhang ergeben. Diese, in umfangreichen Kategoriensystemen 
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nicht so leicht erkennbaren logischen Zusammenhange vermischen sich mit 
den empirischen und miissen bei der Auswertung beriicksichtigt werden. Uni- 
fangreiche Kategoriensysteme fiihren bei unabhangiger Auswertung jeder Ka- 
tegorie oft zu einem erhohten faktisehen a-Niveau der statistischen Signifi- 
kanztests, weshalb multivariate Verfahren haufiger als bisher verwendet wer- 
den sollten. Ein weiteres Problem ergibt sich bei Systemen, die wie eine check- 
list angelegt sind, d.h. vom Beobachter lediglich zu registrieren verlangen, wie 
haufig eine Verhaltensweise auftritt. In der Interpretation wird dann bisweilen 
unterstellt, die Verhaltensdauer stiinde mit der Haufigkeit in direkter propor- 
tionaler Beziehung. Fur diese Unterstellung fand zwar Adams (1970) bei Schii- 
lerverhalten im Unterricht positive Evidenz, aber eine allgemeine Austausch- 
barkeit von Dauer- und HaufigkeitsmaBen gibt es nicht. 

Longabaugh (1980) unterscheidet, was er ,,Kodiersysteme“ nennt, (1) danach, 
ob sie aus einer Theorie abgeleitet sind oder auf nicht systematisierten Erfah- 
rungen mit dem Gegenstandsbereich aufbauen, (2) nach der Breite gegeniiber 
der Detailliertheit, mit der sie einen Bereich erfassen, und (3) nach dem Aus- 
maB, in dem SchluBfolgerungen. Interpretationen durch den Beobachter erfor- 
derlich sind: . . to what extent is the coder required to take advantage of the 

fact that he is a socialized human being, sharing a common culture, in order to 
characterize the behavior?" Auf die Folgerungen, die sich aus diesem dritten 
Gesichtspunkt ftir die Reliabilitatsfrage ergeben, gehen wir spater ein. 

Uni einzelne Kategorien und Kategoriensysteme zu klassifizieren, scheint es 
z.B. ftir die Diskussion ihrer Validitat wie fur das Training der Beobachter 
giinstig, danach zu fragen, welche Aufgaben sie dem Beobachter stellen. Da 
Beobachtung ein kontrollierter ProzeB der Wahrnehmung ist, sind die Aufga- 
ben grundsatzlich diejenigen von Wahrnehmung allgemein, die man mit Luce 
und Galanter (Luce, 1963, Luce & Galanter, 1963a, b) bezeichnen kann als 
Entdecken (detection), Wiedererkennen (recognition), Unterscheiden (discri- 
mination) und Quantifizierung (scaling). Diese vier Aufgaben lassen sich, wie 
Luce (1963, S. 105) dies ftir eine psychophysikalische Behandlung von Wahr- 
nehmungsproblemen getan hat, als vier Fragen formulieren: (1) Liegt das zu 
beobachtende Verhalten vor? (2) Welche von mehreren moglichen Verhaltens- 
weisen liegt vor? (3) Unterscheidet sich dieses Verhalten von jeneni? und (4) 
Wie verschieden ist dieses Verhalten von jeneni? Selbst bei den einfachsten 
Kategoriensystemen sind Aufgaben des Entdeckens und des Wiedererkennens 
zu losen, bei Kategoriensystemen im Sinne von Medley & Mitzel auch Diskri- 
minationsaufgaben, und bei Schatzskalen zusatzlich Quantifizierungsaufga- 
ben. Um diese Aufgaben losen zu konnen, definiert der Forscher ftir den 
Beobachter durch Instruktion, Kategorien und Schulung Zuordnungsregeln, 
die moglichst explizit vorschreiben, welche Erscheinungen am Beobachtungs- 
gegenstand welchen Kategorien zuzuordnen sind. Duncan & Fiske (1977, S. 
15) sprechen in diesem Zusammenhang von recognition rules: ..The rules for 
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the identification of events as instances of the applicable categories will be 
termed recognition rules. Using the investigator’s category system, the task of 
the rater is in the first place to recognize the occurrence of an event specified 
by a recognition rule.“ Reliabilitat und Validitat von Beobachtungen hangen 
davon ab, wie explizit die Zuordnungsregeln formuliert, angewendet und wie 
gut ihre Anwendung gepriift werden kann. 



3.4 Auswahlen aus dem Universum der Beobachtungen 

Meistens konnen nicht alle Beobachtungen, die gemaB dem Abbildungssatz 
prinzipiell moglich waren, auch tatsachlich angestellt werden, z.B. weil ihre 
Zahl zu groB ist, oder Kosten und Zeitaufwand zu hoch waren. Deshalb muB 
fast imrner eine Auswahl getroffen, und diese begriindet werden. Um Aus- 
wahlarten zu beschreiben, ist es hilfreich, den facettentheoretischen Begriff des 
Struktupels einzufuhren. Da die Elemente aller Facetten sich vollstandig 
kreuzklassifizieren lassen, d.h. aus jeder Facette jedes Element mit jedem 
Element jeder anderen Facette kombiniert werden kann, entstehen Kombina- 
tionen mit k Elementen, wobei k die Zahl der Facetten ist. Ihre Anzahl ent- 
spricht dem kartesischen Produkt der Facetten. Jede Kombination stellt ein 
Struktupel dar, in dem das erste Element aus der ersten, das zweite aus der 
zweiten usw. Facette stammt. Die erste Moglichkeit auszuwahlen besteht dar- 
in, nicht flir jedes Struktupel eine Beobachtung zu realisieren, also aus den 
Struktupeln auszuwahlen. So hat beispielsweise Jordan (1971) bei der Kon- 
struktion eines Vorurteils-Fragebogens nicht alle Kombinationen ausgewahlt, 
weil sie seines Erachtens teilweise keinen psychologischen Sinn ergaben. In 
einem solchen Fall konnte man die Facetten nicht als vollstandig iiberkreuzt, 
sondern als geschachtelt ansehen. Kann man das nicht, fiihrt die Auswahl aus 
Facetten zu einer Einschrankung der Allgemeingiiltigkeit der Aussagen. Im 
Extremfall untersucht man nur ein Element einer Facette, z.B. berufstatige 
Frauen aus der Personen-Facette. Eine zweite Moglichkeit auszuwahlen stellt 
die Auswahl innerlialb eines Struktupels dar. Bei Testitems etwa gibt es eine 
Fiille von Formulierungen, in denen der gleiche Inhalt ausgedriickt werden 
kann, und eine Auswahl ist aus Aufwandgrunden erforderlich. Alle Realisa- 
tionsmoglichkeiten, die durch das gleiche Struktupel beschrieben werden, sind 
filr die Theorie, die zum Abbildungssatz gefiihrt hat, aquivalent. Je mehr 
Realisationen dann pro Struktupel vorliegen, um so verlaBlicher ist die Daten- 
basis. 



3.4.1 Auswahl von Personen 

Es gibt verschiedene Griinde, warum man mehr als eine Vp untersucht, selbst 
wenn man iiberzeugt ist. das interessierende Verhalten konne in alien Erschei- 




16 



Hubert Feger 



nungsformen und aufgrund aller relevanten Bedingungen an jeder beliebigen 
und somit jeder einzelnen Person beobachtet werden. (1) Wenn der Forscher 
das interessierende Verhalten nicht herbeifuhren kann oder will, oder es zu 
selten bei einer Person auftritt, beobachtet er mehrere, um die Auftretens- 
wahrscheinlichkeit des Verhaltens zu erhohen. (2) Der Forscher mochte eine 
Vp unter verschiedenen Bedingungen beobachten, jedoch kann die gleiche Vp 
nur unter einer Bedingung untersucht werden, z.B. wegen storender carry- 
over-Effekte (Kontrollproblem). Dann ergibt sich insbesondere in Feldstudien 
das Problem, unter verschiedenen Bedingungen solche Personen zu beobach- 
ten, die vergleichbar sind, so daB Verhaltensunterschiede eindeutig den Bedin- 
gungen zugeordnet werden konnen (interne Validitat). (3) Der Forscher 
mochte Aussagen treffen liber die Generalitat, iiber Verbreitungsgrad und 
interindividuelle Variability des Verhaltens. Nur bei dieser Absicht werden 
Uberlegungen relevant, wie man eine representative Stichprobe aus der inter- 
essierenden Population gewinnen kann (dazu gute Einfiihrungen: Kish, 1953; 
Scott & Wertheimer, 1962; zur Vertiefung: Boltken, 1976; Cochran, 1953; 
Denting, 1950; Hansen et al., 1953; Yates, 1953). 

Ein besonderes Problem ergibt sich aus der Tatsache, daB ,freiwillige Vpn‘ 
untersucht werden, was oft schon aus ethischen Grunden unvermeidlich ist. 
Die Arbeiten von Rosenthal (1965) sowie Rosenthal & Rosnow (1969, 1975; 
dort weitere Literatur) legen zwei Schllisse nahe: Es gibt bestimmte situative 
Umstande, die einige Personen zur freiwilligen Vp werden lassen, andere Per- 
sonen nicht. Und zwischen freiwilligen und zwangsrekrutierten Vpn gibt es 
einige Unterschiede in Merkmalen wie Hohe der Schulbildung, des sozialen 
Status, der Intelligenz, der Anpassung und motivationaler Bediirfnisse. Das 
Problem ist darnit ini Sinne von Campbell & Stanley (1963) eines der externen 
Validitat, der fraglichen Grenzen der Verallgemeinerbarkeit von Befunden. 
Allerdings weist Kruglanski (1975) darauf hin, daB Versuchsergebnisse nicht 
generell von der Freiwilligkeit der Vpn abhangen. Bredenkamp (personliche 
Mitteilung) weist darauf hin, nur wenn eine solche Abhangigkeit durchgangig 
gegeben sei, ntiisse man diese Artefaktmoglichkeit auch allgemein kontrollie- 
ren. Hingegen miiBte zum speziellen Nachweis eines Artefaktes gezeigt wer- 
den, daB der Faktor ,,Freiwilligkeit“ disordinal mit der unabhangigen Varia- 
blen einer Untersuchung derart interagiert, daB die Relation zwischen unab- 
hangiger und abhangiger Variable fiir unterschiedliche Gruppen verschieden 
ausfallt. Die bei Rosenthal & Rosnow aufgefuhrten Untersuchungen, die diese 
Interaktion geprlift haben, zeigen eben nicht disordinale Interaktionen (s. Bre- 
denkamp 1980). 

Wenn Verhaltensweisen untersucht werden sollen, die von anderen Personen 
nicht beeinfluBt werden, oder bei denen ein solcher EinfluB nicht interessiert, 
kann man die Stichprobe so ziehen, daB jede Person unabhangig von jeder 
anderen eine gleiche oder bekannte Chance hat, gezogen zu werden. Sonst 
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kann das Paar, die Gruppe, die Kultur als Element der Population gezogen 
werden, wobei die Facettentheorie zur Populationsdefinition benutzt werden 
kann. Flir kulturvergleichende Studien ringen zwei Kriterien fur die Zusam- 
mensetzung der Personenstichprobe um gleichzeitige Beachtung ... . . whether 
a given relationship between variables will be obtained across cultures (irre- 
spective of people) and across people (irrespective of their cultural member- 
ship) 1 ', Longabaugh (1980, S. 73). Eine bemerkenswerte Losung dieser Aufga- 
be findet sich in Whiting et al. (1966). 



3.4.2 Auswahl und Schulung von Beobachtern 

Selten hat ein Untersucher uberhaupt die Moglichkeit, aus einer Gruppe von 
mehreren die ihm geeignet erscheinenden Beobachter auszusuchen. Die for- 
malen Kriterien sind bei Auswahlentscheidungen meistens hinreichend hohe 
Ubereinstimmung mit einem Standard, mit dem ,,mittleren“ oder typischen 
Beobachter (S.U. Krippendorff, 1970), oder eine hohe oder nicht niehr zu 
steigernde Ubereinstimmung zwischen einem Paar oder einem Team aus der 
Gesamtmenge der Beobachter. Bock (1956) hat die Auswahl von Beurteilern in 
Praferenzexperimenten systematisch untersucht. Er weist darauf hin, daB die 
Auswahl nach interrater agreement die Annahme einschlieBt, alle Beurteiler 
bezogen sich auf die gleiche Variable, die nur in einer Dimension variiere. 
Atypische Urteile wttrden auch dann nicht beriicksichtigt, wenn sie reliabel 
sind (zur Gruppierung von Beobachtern nach der Ahnlichkeit ihrer Beurtei- 
lungsstrategien s. Naylor et al., 1967; Naylor & Schenck, 1966). 

Wegen der besonderen Bedeutung, die der Verhaltensbeobachtung in der Ver- 
haltenstherapie zukommt, ist im Arbeitskreis von O’Leary (z.B. Romanczyk 
et al., 1973) der Schulung von Beobachtern, meistens unter Reliabilitatsge- 
sichtspunkten, groBere Aufmerksamkeit zugewandt worden. Kontrollierte 
Ubung fiihrt fast immer zu einer bemerkenswerten Erhohung der Uberein- 
stimmung zwischen den Beobachtern. Nay & Kerkhoff (1974) zeigten filr ein 
Kodiersystem mit 22 Symbolen, daB Feedback liber Fehler die Reliabilitat 
nach AbschluB des Trainings deutlich gegenuber einer Kontrollgruppe erhoht, 
die ohne Riickkoppelung am gleichen Videotape-Material lediglich kodieren 
iibte. Training geschieht in jiingster Zeit haufig an Videotapeaufnahmen. Nay 
& Kerkhoff stellen folgende Vorteile heraus: 1. kann die Reliabilitat in bezug 
auf eine standardisierte Vorlage abgeschatzt werden, 2. kann die Darbietung 
fill' Feedback an einen Beobachter unterbrochen werden, 3. konnen insbeson- 
dere schwierige Passagen beliebig oft, bis zur Beherrschung der Kodierung, 
wiederholt werden, 4. konnen in natura selten auftretende, jedoch wichtige 
Phanomene haufiger gezeigt werden; flir ihr Auftreten kann sensibilisiert wer- 
den - generell lafit sich die Materialauswahl so vornehmen, daB alle Katego- 
rien hinreichend oft geiibt werden konnen. 
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Beobachter sind jedoch moglicherweise reaktiv: Ihre Einschatzungen werden 
verlaBlicher, wenn man sie vorab darliber unterrichtet, daB Reliabilitatsprii- 
fungen stattfinden. Wenn man Beobachtern Gelegenheit zum ..Erfahrungsaus- 
tausch“ gibt, andern sie im Verlauf der Beobachtungszeit ihre Interpretation 
der vorgegebenen Kategorien, nahern sie einander an und werden so reliabler, 
wenn auch nicht unbedingt valider (nach Romanczyk et al., 1973; s.a. Reid 
1970, sowie Feger & Graumann in diesem Band). 



3.4.3 Auswahl des zu beobachtenden Verhaltens 

Mit Wright (1960, S. 73) kann man diese Auswahl unter inhaltlichem und 
unter zeitlichem Aspekt betrachten. ,, Material coverage . . . refers to what and 
how much at a time the observer tries to see in the stream of behavior." 
Hingegen bezieht sich ..continuum coverage" auf . . the length or parts into 
which the stream of behavior is divided for purposes of observation". Diesen 
zweiten Aspekt bezeichnen wir als Ziehen von Zeitstichproben (time sam- 
pling). Longabaugh weist auf drei Entscheidungen hin, die beim Ziehen von 
Zeitstichproben zu fallen sind: 1. Ob man den Plan fixiert, vor Beginn der 
Beobachtung festlegt, oder offen laBt, wann wielange etc. zu beobachten sei, 
und allenfalls Randbedingungen vorgibt, beispielsweise die, jede Person solle 
nicht ofter als einmal pro Tag beobachtet werden. 2. Wie lange der Zeitraum 
dauern soli, in dem das Ereignis beobachtet wird. 3. Wie lange das Pausenin- 
tervall zwischen Beobachtungen dauern soil. Die Gefahr beim Ziehen von 
Zeitstichproben liegt allgemein darin, die zeitliche Struktur des beobachteten 
Phanomens nicht angemessen zu erfassen. Andererseits wird kontinuierliche 
Beobachtung, z.B. eines gesamten Therapieverlaufs, nicht immer moglich sein 
(Literatur: Arrington 1939, 1943; Hutt & Hutt 1974; Wright 1960). 

Beim Ziehen von Zeitstichproben kann man entweder ein einziges Interval] 
wahlen und es festlegen, indent man Anfangs- und Endzeitpunkt bestimmt. 
Man kann sich auch fur ntehrere Intervalle entscheiden, dann sind deren Lan- 
ge, u.U. auch die Pausenlange und Startzeitpunkte zu vereinbaren. Ein we- 
sentlicher Gesichtspunkt ergibt sich dabei aus der Art der Beobachtungen, die 
man erwartet, insbesondere aus deren vermuteter Dauer und Haufigkeit. Sak- 
kett (1978) stellt folgendes Schema auf (s. S. 19 oben). 

Als Optimierungskriterium ftir die Ausschnittwahl formuliert Sackett (S. 26): 
,,The sampling problems of observational research involve maximizing the 
chances of actually observing any of these four types of behavior in sequences 
that are representative of the typical behaviors of the subjects under study." 
Uni Verhalten vont Typ II und IV zu erfassen, mltssen relativ lange Zeitstich- 
proben mit kontinuierlicher Beobachtung gezogen werden; bei Typ I-Verhal- 
ten konnen die Stichproben kttrzer sein, bei Typ 111-Verhalten kdnnen die 
Beobachtungen diskontinuierlich vorgenommen werden. Auch die Auswer- 
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tungsziele, z.B. die Art der beabsichtigten Vergleiche und der zu prlifenden 
Hypothesen, bestimmen die Ausschnittwahl mit. Wenn z.B. Aussagen liber 
Abfolgen gleicher oder verschiedener Verhaltensweisen oder liber Zusammen- 
hange von Umweltzustanden und Verhalten beabsichtigt sind, liegt in der 
Regel kontinuierliche Beobachtung in relativ langen Intervallen nahe. Wenn 
nur Frequenz, nicht aber Dauer interessiert, konnen die Zeitstichproben un- 
terschiedlich lang sein, sonst muB entsprechend adjustiert werden (ausflihrlich 
Sackett, 1978). Wenn mehrere Individuen zusammen auftreten und die Bezie- 
hungen zwischen ihnen interessieren, stellt sich die Frage, ob ein Beobachter 
eine Person oder mehrere zugleich beobachten soil. Eine Moglichkeit, den 
Ausschnitt festzulegen, besteht darin, ein bestimmtes Individuum auszuwah- 
len (focal individual coding method) und wahrend einer bestimmten Beobach- 
tungsperiode alle interessierenden Verhaltensweisen dieses Individuums zu re- 
gistrieren, insbesondere auch, mit wem es interagiert. Damit diese Methode zu 
reprasentativen Verhaltensstichproben fiir das Individuum und die Gruppe 
fiihrt, sollte 1) jede Person reihum zum Fokus der Beobachtung werden, 2) bei 
jeder Interaktion bei der das fokale Individuum beobachtet wird, sollte festge- 
halten werden, mit wem und in welcher Art es interagiert, 3) fiir jede im 
Mittelpunkt stehende Person sollte Verhalten in einer geniigend groBen An- 
zahl von Situationen erfaBt werden, und 4) die interessierenden Verhaltenswei- 
sen sollten iiber die Gelegenheiten hinweg relativ stabil sein. Sind diese Bedin- 
gungen nicht erfiillt, so laBt sich aus Beobachtungen einzelner Individuen das 
Interaktionssystem der Gruppe nicht unverfalscht konstruieren. Je nach Zielen 
und Resourcen des Forschers bleibt dann die Moglichkeit, alle Individuen 
gleichzeitig zu beobachten, u.U. mit technischen Hilfsmitteln, die Zahl der 
Kategorien zu vermindern, die Zahl der Beobachter zu vergroBern und deren 
Beobachtungen zu synchronisieren (Sackett, 1978). 

Stehen mehrere Beobachter zur Verfligung, so sollten sie zufallig oder syste- 
matisch auf die Vpn oder die Versuchsbedingungen verteilt werden. Eine feste 
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Zuordnung ftihrt zu der Gefahr einer Konfundierung von Unterschieden zwi- 
schen Beobachtern einerseits, Beobachteten oder Bedingungen andererseits. 



3.4.4 Ubergreifende Auswahlstrategien 

Wir bezeichnen Anweisungen zur Auswahl dann als ubergreifend, wenn sie 
sich auf mehr als eine Facette beziehen, z.B. nicht nur auf die Auswahl von 
Personen, sondern auch auf Situationen. In dem folgenden, leicht abgeander- 
ten Schema von Longabaugh (1980, S. 7 8 f f . ) in Tab. 1 konnen Dauer von 
Beobachtung und Pausenintervall bei jeder Strategie fixiert sein oder variieren. 
Die Strategien unterscheiden sich danach, ob die zu beobachtenden Personen, 
die aufzusuchenden oder herzustellenden Umwelten und das zu erfassende 
Verhalten fixiert sind oder variieren. Fixiert heiBt hier: bei der Planung und 
vor Beginn der Beobachtung festgelegt. Bleibt die Bedingung variabel, so be- 
stimmt das beobachtete Ereignis, auf welche Situationen, Personen und Ver- 
haltensweisen der Beobachter stoBt. 

Zur Erlauterung des Schemas besprechen wir einige Strategien. Beirn Ziehen 
von Ereignisstichproben (event sampling) wird ein vorbestimmtes Verhalten 
nur dann aufgezeichnet, wenn bestimmte Personen es in einer zuvor festgeleg- 
ten Umgebung zeigen. Munroe (1973, hier nach Longabaugh 1980, S. 80) 
beobachtete bei bestimmten Kleinkindern in zeitlich und raumlich vorher fi- 
xierten Umgebungen, wenn die Kinder schrien: wie lange sie dann weinten, 
nach wieviel Sekunden eine Pflegeperson erschien, wer das war und wie sie 
sich verhielt, usw. Das Ziel dieser Studie bestand darin, auf Verteilungen 
bezogene Aussagen zu vergleichen, die durch Ziehen von Ereignisstichproben 
gegenliber dem Ziehen von Zeitstichproben gewonnen wurden. 

Ein Beispiel flir das Ziehen von Personen-Umwelt-Sticliproben ist die Arbeit 
von Schoggen (1976, s. Longabaugh 1980, p. 80), in der Dreijahrige aus drei 
verschiedenen sozialen Schichten (a) beim Essen und beim freien Spiel, (b) im 
oder nahe bei dem Elternhaus des Kindes, und (c) in Anwesenheit der Mutter 
beobachtet wurden. Waren a, b und c gegeben, wurden eine Reihe von Verhal- 
tensweisen aufgezeichnet. Letzteres - mehrere Mengen im Bildbereich - ist 
im Gegensatz zum Ziehen von Ereignisstichproben wesentlich flir diese Strate- 
gie, und das Beobachtungsergebnis kann dementsprechend nicht nur aus dem 
Vergleich liber die sozialen Schichten bestehen, sondern neben Aussagen liber 
Verteilungsformen auch solche liber korrelative Zusammenhange der Verhal- 
tensvariablen enthalten. Selten wird die Strategie verwendet, lediglich Perso- 
nen-stichproben zu fixieren. Eine bekannte Ausnahme ist Barkers (1951) ,,One 
boys day“, in der zahllose Verhaltensweisen eines bestimmten Jungen in all 
seinen Umwelten eines einzigen Tages aufgezeichnet wurden. Das Beobach- 
tungsergebnis stellt ein Inventar von Verhaltensweisen, Umwelten und ihren 
Zusammenhangen dar, bisweilen als specimen record bezeichnet (s. Weick 
1968, S. 416f.; Wright 1960, S. 86). 
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4. Die Bewertung von Beobachtungen 

Damit Beobachtungen als wissenschaftlich gelten konnen, miissen sie be- 
stimmte Kriterien notwendigerweise erfiillen. Die Begrlindung der Kriterien 
als notwendige, m.E. ein Thema der Wissenschaftstheorie, kann hier nur 
angedeutet werden. Die Planung von Beobachtungen geschieht auch mit dent 
Ziel, in der erwarteten Bewertung diesen notwendigen Kriterien zu geniigen, 
wobei in der Vorbereitungsphase oft Planungsschritte und solche der Bewer- 
tung ruckgekoppelt werden, bis die Kriterien hinreichend erfiillt sind. Von 
den notwendigen unterscheiden wir differenzierende Kriterien. Dabei gehen 
wir davon aus, daB alle empirischen Methoden in Psychologie und Sozialwis- 
senschaften als Varianten der wissenschaftlichen Beobachtung aufgefaBt wer- 
den konnen, wobei die wesentlichen Unterschiede zwischen den Methoden 
sich aus dem Zweck ergeben, dem sie dienen sollen. So ist der Zweck des 
Tests, inter- und intraindividuelle Unterschiede zu bestimmen, Strukturanaly- 
sen wie multidimensional Skalierung oder Clusteranalysen haben die Aufga- 
be, Ordnungsstrukturen nachzuweisen, und das Experiment sucht nach Zu- 
sammenhangen zwischen Variiertem und Variierendem. Wegen dieser Absicht 
werden die Bedingungen, unter denen die Variablen des Experiments nianipu- 
liert und erfaBt werden, im idealen Experiment so kontrolliert, daB eindeutige 
Schliisse von Antezedenzbedingungen auf Beobachtungsvariablen moglich 
sind. Bei den meisten Tests sind Durchfiihrungssituation und Reaktionsmog- 
lichkeiten in der Form der Standardisierung kontrolliert, wieder mit dem Ziel, 
Beobachtungen im interindividuellen Vergleich moglichst eindeutig und zu- 
treffend deuten zu konnen. Test und Experiment sind also nicht, wie bisweilen 
behauptet wird, Alternativen zu oder Konkurrenten der wissenschaftlichen 
Beobachtung, sondern Beobachtungen unter zweckspezifischen KontrollmaB- 
nahmen. Beobachtungsstudien i.e. S. werden oft dann durchgefuhrt, wenn aus 
verschiedenartigen Griinden diese Kontrollen nicht durchgefuhrt werden kon- 
nen, z.B. wenn man die unabhangigen Variablen nicht variieren kann oder 
darf. Oft auch leisten Beobachtungsstudien die Pionierarbeit, das Universum 
der Beobachtungen einzugrenzen und zu strukturieren. 

Wahrend der Grad der Kontrolle variieren kann und die Art der Kontrolle 
dem jeweiligen Ziel angepaBt ist, stellt Kontrolliertheit wieder nur Mittel zum 
Zweck dar: verlaBliche und giiltige Schliisse ziehen zu konnen. Reliabilitat und 
Validitat sind jene notwendigen Kriterien, die in der Psychologie das meiste 
Interesse gefunden haben. Reliabilitat spielt als Kriterium in der Psychologie 
deshalb eine so groBe Rolle, weil wir oft nicht wissen, welche Variablen wie zu 
kontrollieren sind, oder diese Kontrollen nicht anwenden konnen, uni jene 
Bedingungen herzustellen, deren Realisation die Theorie verlangt, und jene 
Variationsquellen auszuschalten, mit denen sich die jeweilige Theorie nicht 
befaBt und die insofern gerade irrelevant sind. Reliabilitat kann daher allge- 
mein als das Verhaltnis von systematischer, d.h. theoretisch erklarter Varianz. 
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zu Fehlervarianz, d.h. durch die jeweils betrachteten Bedingungen nicht er- 
klarte Varianz, konzipiert werden. Wenn die theoretischen Ideen, die den 
Abbildungssatz formulierten, zutreffen, dann ist es eine Frage der Kontrolle 
und ein Ausdruck der Reliabilitat, wie stark der empirische Zusammenhang 
zwischen Definitionsbereich und Bildbereich des Abbildungssatzes ist. 

Kategoriensysteme unterscheiden sich, wie erwahnt, nach dem AusmaB, in 
deni Beobachtetes interpretiert werden muB, damit es der Beobachter kodieren 
kann. Longabaugh (1980, S. 102) zeigt, welche Konsequenzen dies fur die 
Ubereinstimmung von Beurteilern hat, wenn sie auf den ihnen gemeinsamen 
kulturellen Hintergrund angewiesen sind, um Verhalten eindeutig zu interpre- 
tieren: 

„Even within the same culture persons have only partial access to shared meaning and 
an imperfect understanding of what they have access to. When several observers are 
asked to categorize a particular unit of behavior, the greater the number of observers, 
the less the average agreement obtained. ... As the number of observers increases, the 
meaning shared by all remains at best constant. Meanwhile the component of meaning 
shared by fewer than all observers increases as does the idiosyncratic meaning unique to 
each observer." 

Nicht nur die VerlaBlichkeit, sondern auch die Giiltigkeit von Urteilen, die auf 
Verhaltensbeobachtung basieren, hangt von dem gemeinsamen Verstandnis 
der sozialen und kulturellen Umwelt ab. Verstandlicherweise wird dies beson- 
ders in kulturvergleichenden Untersuchungen deutlich, weshalb wir noch ein- 
mal Longabaugh (1980, S. 102) zitieren konnen: 

,, Veridical judgments regarding actor intention require that actor and observer 
share the same symbols; veridical judgments regarding the effect of the behav- 
ior require that observer and target share the same symbols; veridical judg- 
ments concerning the meaning of the behavior for the relationship require that 
actor, target, and observer share the same symbol. Veridical judgment 
concerning the cultural significance of the behavior requires that observer, 
actor, target, and most other cultural participants (in principle) agree upon the 
meaning of the symbol." 



5. Die Reproduzierbarkeit von Beobachtungen 

Reliabilitat hat je nach der mit Beobachtungen konfrontierten Theorie ver- 
schiedene Aspekte. Sagt die Theorie nichts iiber Unterschiede zu verschiede- 
nen MeBzeitpunkten, dann laBt sich die Kontrolliertheit unter dem Gesichts- 
punkt der zeitlichen Stabilitat problematisieren. Spezifiziert die Theorie keine 
Effekte unterschiedlicher MeBinstrumente, so sollten die Ergebnisse mit Hilfe 
unterschiedlicher Instrumente wiederholbar sein. Generell beschreibt also Re- 
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liabilitat die Reproduzierbarkeit von Beobachtungen unter theoretisch fur das 
Auftreten des Beobachteten aquivalenten Bedingungen bei Unterschieden in 
theoretisch irrelevanten Bedingungen. Was als wesentliche oder als irrelevante 
Bedingungen anzusehen ist muB von der Fragestellung der Untersuchung her 
begriindet werden. Eine Reliabilitatsstudie legt fest, was erfaBt werden soil, 
welche Bedingungen konstant sind und welche variabel; letztere stellen die 
Hinsicht dar, in der die Ergebnisse reproduzierbar sein sollen - das konnen 
z.B. MeBwiederholungen zu verschiedenen Zeitpunkten, mit verschiedenen 
Apparaten und durch verschiedene Personen sein. Formal unterscheiden wir 
zwischen (1) den verschiedenen MeBinstrumenten, fiir die hier interessierende 
Reliabilitatsforschung sind das durchweg Beobachter, (2) den verschiedenen 
Beobachtungsgegenstiinden, hier meist verschiedene Personen, (3) den ver- 
schiedenen Beobachtungshinsichten, hier in der Regel als inhaltlich verschiede- 
ne Kategorien konzipiert, die an der gleichen Person erfaBt werden konnen, 
und schlieBlich (4) verschiedenen Beobachtungsgelegenheiten, oft in Form von 
wiederholten Messungen realisiert. Die Reproduzierbarkeit von Beobach- 
tungsergebnissen studiert man iiber die Variation wenigstens einer dieser vier 
Mengen; oft interessiert die Vergleichbarkeit der Ergebnisse, die mit verschie- 
denen MeBinstrumenten - durch diverse Beobachter - gewonnen wurden, 
oder liber unterschiedliche MeBzeitpunkte. Die Reliabilitatsarten der Test- 
theorie (s. Kap. von Kristof und Fischer in diesem Band) finden hier ihre 
logische Entsprechung. 

Jede Beobachtung und Messung, auch die im Bereich der klassischen Natur- 
wissenschaften vorgenommene, ist mit mehr oder weniger groBen MeBfehlern 
behaftet. Dafiir kann man sich zahlreiche Griinde vorstellen, von der falschen 
Justierung des MeBgerates bis zur Unaufmerksamkeit des Ablesenden. Da 
man mit solchen Fehlern rechnet, interessieren die Fragen, wie groB der Fehler 
ist, ob er konstant, systematisch ist (= bias) oder ob er zufallsmaBig variiert (= 
error). Haufig geht man davon aus, man sei in der Lage, grdBere, systemati- 
sche Fehler zu identifizieren, dann auszuschalten oder zu kontrollieren - 
meist bei der Konstruktion des MeBgerates oder der Formulierung von Kate- 
gorien und Instruktion. Als Beispiel fiir diesen ProzeB in der Psychologie sei 
die Arbeit von Hendel & Weiss (1970) erwahnt, in der ein Nachweis stabiler 
interindividueller Unterschiede in der Konsistenz bei Paarvergleichen gelang. 
Bestimmte Reliabilitatseinschatzungen konnen also erhoht werden, wenn die 
konsistenteren Beurteiler ausgewahlt oder die Urteile z.B. durch Schulung 
konsistenter werden. Was bleibt. sind dann zahlreiche, meist unidentifizierte 
Quellen, die kleine Zufallsfehler bewirken, iiber deren Wirkungen man an- 
nimmt, daB sie sich additiv kombinieren und einen Erwartungswert von Null 
haben. Also muB zur Fehlerabschiitzung wie zur Bestimmung des richtigen. 
des ,,wahren Wertes“ dieser Grenzwert von Messungen approximiert werden. 
was innerhalb der Naturwissenschaften haufiger getan wird und zu Serien von 
Hunderten von MeBwiederholungen fiihrt. Als FehlermaB wird dann die mitt- 
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lere Abweichung (average error) bestimmt, wie aus der folgenden Tabelle 
hervorgeht: 



Messung 


Ergebnis 


absolute Abweichung 
vom Mittelwert in mm 


1 


100 m m 


0 


2 


101 m m 


1 


3 


104 mm 


4 


4 


99 mm 


1 


5 


96 m m 


4 


2 10; n = 5 Messungen 



mittlere Abweichung = x = 2 mm 



Zur besseren Vergleichbarkeit iiber verschiedene Skalen wird auch der prozen- 
tuale Fehler (percentage error) angegeben, der als mittlere Abweichung relativ 
zur GroBe des Objekts definiert ist. Betrachten wir im Beispiel 100 mm als 
ObjektgroBe, dann belauft sich der prozentuale Fehler auf = 2 %. 

Messungen und damit Reliabilitatsprobleme wurden in der Psychologie ver- 
standlicherweise dann besonders brisant, als von Testwerten existenzielle Ent- 
scheidungen abhingen, so daB im Bereich der Testtheorie und Testkonstruk- 
tion eine lange Tradition der Reliabilitatsforschung zu finden ist. Ohne hier 
auf die zahlreichen Grttnde dafiir einzugehen, darf man allerdings davon aus- 
gehen, daB eine Person nur selten tausendmal -wie ein Objekt der Naturwis- 
senschaften - gemessen werden kann. Die Losung dieses Problems in der 
klassischen Testtheorie besteht darin, statt vieler Messungen an einer Vp zwei 
oder wenig mehr Erhebungen an zahlreichen Vpn durchzufiihren. Um diesen 
Ausweg beschreiten zu konnen, muB man annehmen, man konne Zufallsstich- 
proben aus der fur eine Messung in Frage kommenden Population von Vpn 
ziehen und dabei stehe filr diese MeBzwecke jede Vp im Prinzip stellvertretend 
fur jede andere. Als FehlermaB bietet sich analog zum mittleren Fehler die 
durchschnittliche absolute Abweichung von erster und zweiter Messung an. 
Dieses MaB wird jedoch in der Psychologie selten angewandt, statt dessen 
wird ein Produkt-Moment-Korrelationskoeffizient bestimmt, wodurch mog- 
liche Unterschiede zwischen den Mittelwerten und Streuungen beider MeB- 
wertreihen sich nicht auf das FehlermaB auswirken konnen. Dieses Vorgehen 
kommt der Annahme gleich, Differenzen in Skaleneinheit und Skalenursprung 
seien irrelevant, vielmehr seien die relativen Unterschiede zwischen den Perso- 
nen wesentlich. 
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Die andere Tradition der Reliabilitatsforschung ist mit der Methodenlehre der 
wissenschaftlichen Beobachtung verbunden. Hier tritt an die Stelle des MeBin- 
strumentes oder Tests der Beobachter als Datenquelle, und erhoben wird die 
Reproduzierbarkeit seiner Aussagen iiber wiederholte Gelegenheiten als intra- 
rater -consisteny und die Vergleichbarkeit der Befunde verschiedener Beobach- 
ter als inter-rater-agreement. Die Methodik der Reliabilitatspriifung hat in den 
letzten Jahrzehnten auf der Auswertungsseite erhebliche Fortschritte gemacht, 
die wir im folgenden skizzieren. Die veroffentlichten Beobachtungsstudien 
haben diese Entwicklung oftmals noch nicht rezipiert. Susman et al. (1976, 
nach Hollenbeck, 1978) untersuchten Beobachtungsstudien in 15 Zeitschriften 
aus entwicklungspsychologischen, klinischen und padagogischen Bereichen 
und stellten fest: 32% der Arbeiten berichteten uberhaupt keine Reliabilitats- 
angaben. Fast alle Schatzungen, die referiert wurden, waren Angaben iiber 
prozentuale Ubereinstimmung (s.u.), und wahrend der 16 Jahre, die sie diese 
Zeitschriften verfolgten, fanden die Autoren keine Verbesserung. 

Uni die groBe Zahl der Analyseverfahren zu ordnen, gliedern wir nach dem 
Skalenniveau, das den Beobachtungen als Daten zugeschrieben wird. Denn 
man wird Reproduzierbarkeit nur hinsichtlich jener Datenmerkmale fordern, 
die man in den Daten als vorhanden annimmt; wenn also nur Rangskaleninfor- 
mation in den Daten vorhanden ist, wird man nicht auf Ubereinstimmung in 
den IntervallgroBen priifen (allgemeine Ubersichtsliteratur: Asendorpf & 
Wallbott, 1979; Frick & Semmel, 1978; Landis & Koch, 1975; Lienert, 1973, 
Kap. 9; Tinsley & Weiss, 1975; Computerprogramme z.B. Cicchetti et al.. 
1977). 



5.1 UbereinstimmungsmaBe fur nominalskalierte Daten 

5.1.1 Prozentuale Ubereinstimmung und allgemeine Voriiberlegungen 

Von Ubereinstimmung sprechen wir, wenn das Beobachtete identischen Kate- 
gorien zugeordnet wird. 

Zu den in der Literatur sehr haufig berichteten und in der Regel auf dichotome 
Daten angewandten UbereinstimmungsmaBen gehort der Prozentsatz, mit 
dem (zwei) Beobachter das gleiche Material in die gleichen Kategorien ordnen. 
Dabei nimmt man implizit an: Die Ubereinstimmung bei der Beurteilung des 
einen Beobachtungsgegenstandes ist genauso (positiv) zu werden wie die 
Ubereinstimmung bei jedeni beliebigen anderen und die abweichende Klassifi- 
kation bei dem einen Material ist ein gleichschwerer Fehler wie jede andere 
Nichtubereinstimmung. Unterscheidet sich dann die Materialstichprobe bei 
der Erprobung des Kategoriensystems in ihrer Klassifikationsschwierigkeit 
von der Materialstichprobe der eigentlichen Erhebung (z.B. Videotraining vs. 
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Feldstudie), dann kann man nicht gleiche Reliabilitatskoeffizienten erwarten. 
Dies gilt auch fur den Austausch von Beobachtern, wenn man Unterschiede in 
der Klassifikationsgute erwarten muB. Sofern Reliabilitatsstudien weder Mate- 
rial- noch Beobachterparameter berucksichtigen, sind die Grenzen der Verall- 
gemeinerung der Reproduzierbarkeitsangaben unklar. 



Tabelle 2: Daten nach Hollenbeck (1978). 



Beobachter 


Kategorie 


Zeitblocke 
















1 




1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


2 




A 


0 


1 


1 


0 


0 


1 


0 


0 


1 


1 


5 




B 


1 


0 


1 


0 


0 


0 


1 


0 


0 


0 


3 


2 


C 


0 


1 


1 


0 


1 


0 


1 


0 


1 


0 


5 




A 


0 


1 


0 


0 


1 


1 


1 


0 


1 


1 


6 




B 


1 


0 


0 


1 


0 


1 


0 


0 


0 


0 


3 




C 


1 


1 


1 


0 


1 


0 


0 


0 


1 


0 


5 



Legende: 1 = Verhalten in der entsprechenden Kategorie wurde beobachtet, 
0 = sonst. 



Hollenbeck (1978) diskutiert die Problematik von Ubereinstimmungsprozent- 
satzen an den Beobachtungen in Tab. 2, wobei fur ,,Zeitblocke“ jede Art von 
Wiederholung stehen kann. beispielsweise auch „Vpn“ oder ,,Situationen“. - 
Zunachst ergeben sich nun mehrere Moglichkeiten, prozentuale Ubereinstim- 
mung (% U) zu berechnen, z.B. fur jede Kategorie einzeln. fur den Durch- 
schnitt. und fiir vollstandige Ubereinstimmung pro Zeitblock: 



Kategorie 


Anzahl konkordanter Paare 


% U 


A 


7 von 10 


70 


B 


6 von 10 


60 


C 


8 von 10 


80 


Durchschnitt 


7 von 10 


70 


vollstandig pro 






Zeitblock 


4 von 10 


40 
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Weitere Moglichkeiten entstehen, wenn man Gewichte ftir verschiedene Arten 
von Konkordanz oder Diskordanz einftihrt (z.B. Ubereinstimmung bei posi- 
tiver Identifikation des Verhaltens sei gewichtiger zu veranschlagen als bei 
negativer, S.U.), oder statt wie im Beispiel 0/1 zu registrieren, feststellt, wie oft 
das Verhalten im jeweiligen Zeitblock auftrat, oder die Sequenz berucksich- 
tigt, in der Verhaltensweisen innerhalb eines Zeitintervalles beobachtet 
wurden. 

Die Kritik an % U faBt Hollenbeck in folgenden Punkten zusammen: 1. Die 
Hohe des moglichen % U hangt von den Randsummen (letzte Spalte in Tab. 2) 
ab. Je unterschiedlicher die Randsummen sind, desto geringer ist die maximal 
mogliche Ubereinstimmung. Dies ist solange wiinschenswert, wie sich in un- 
terschiedlichen Randsummen ausschlieBlich Fehler der Beobachter nieder- 
schlagen konnen, etwa zu geringe Sensibilitat jener Beobachter mit niedrigen 
positiven Randsummen. Wie jedoch Randsummen-Differenzen zu deuten 
sind, laBt sich nur aus der jeweiligen Studie bestimmen, und eine Anwendung 
der signal detection theory (Green & Swets, 1966, einfuhrend: McNicol, 1972) 
ware moglich, wenn man Sensitivitatsunterschiede und unterschiedliche Reak- 
tionstendenzen priifen mochte 2. Die Bewertung des berechneten % U hangt 
von den Randsummen ab, denn aus ihnen laBt sich bestimmen, wie groB die 
rein zufallig zu erwartende Ubereinstimmung ist (s.u.). Fiir Kategorie A in 
Tab. 2 ergibt sich als Erwartung aufgrund der Randsummen: 



Beobachter 2 



Beobachter 1 



0 1 



0 


2 


3 


5 


3 


2 


1 


2 


3 


5 


1 


4 




4 


6 


10 



erwartet beobachtet 



4x5 5x6 

Also sind — H = 5 Ubereinstimmungen aufgrund der Randsum- 

men zu erwarten, somit ist die beobachtete prozentuale Ubereinstimmung von 
70% genau 20% besser als die Zufallserwartung von 50%. bei Kategorie B ist 
sie nur 2% besser, bei C 30% besser als der Zufall. 3. % U informiert nicht 
daruber, wo die Fehler liegen und welcher Art sie sind. 4. Das durchschnittli- 
che % U liber alle Kategorien kann - besonders, wenn es nicht extrem hoch 
ist und iiber viele Kategorien zusammengefaBt wird - drastische Unterschiede 
zwischen den einzelnen Kategorien verdecken. Wenn inhaltliche Schlusse auf 
Beobachtungen in einzelnen Kategorien basieren, muB die VerlaBlichkeit fiir 
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diese Kategorien bekannt sein. 5. Wenn die Gelegenheiten zur Wiederholung 
der Beobachtungen als Zeitintervalle geplant werden, variiert % U als Funk- 
tion der Lange dieses Intervalles: Je langer, desto groBer die vielleicht nur 
scheinbare Ubereinstimmung, wenn nur das bloBe - mindestens einmalige - 
Auftreten des Verhaltens registriert wird. 

Zu den wichtigsten Einsichten der Reliabilitatsmethodik gehort die Erkennt- 
nis, daB Ubereinstimmung nicht durch jedes Zusammenhangs- oder Assozia- 
tionsmaB beschrieben werden kann. Das allgemeine statistische Problem, den 
Zusammenhang zwischen zwei oder mehr nominalskalierten Variablen zu 
messen, wurde ausfuhrlich von Goodman & Kruskal (1954, 1959, 1963, 1972) 
erortert (Diskussion dieser Arbeiten bei Bishop et al. 1974. McKinlay, 1975). 
Ubereinstimmung ist jedoch ein Spezialfall von Zusammenhang, wie aus fol- 
gendem Beispiel hervorgeht: 

Kategorie 
A 



2. Beobachter B 



C 



1. Beobachter 
ABC 



0 


50 


0 


0 


0 


50 


50 


0 


0 



Der Zusammenhang ist perfekt, die Ubereinstimmung jedoch gleich Null. 
Damit Ubereinstimmung vorliegt, miissen die Falle in identische Kategorien 
geordnet werden, fill' Zusammenhang genttgt eine solche Zuordnung, welche 
die Vorhersage der Klassifikation durch den einen Beurteiler aus der Klassifi- 
kation eines anderen Beurteilers gestattet. 



5.1.2 Systematik einiger Ubereinstimmungsmafie fur nominalskalierte Daten 

Eine weitere, fur die Reliabilitatsmethodik wesentliche Einsicht besteht in der 
Erkenntnis, daB Ubereinstimmung sich auch zufallig einstellen kann, wenn 
Beobachter gar nicht beobachten und so gewonnene Information zur Grundla- 
ge ihres Urteils machen, sondern blind - z.B. durch Munzwurf - kategori- 
sieren, oder wenn sie aufgrund verschiedener, voneinander unabhangiger Kri- 
terien zu ihren Resultaten kommen. Wenn jeder von zwei Beurteilern jede von 
zwei Kategorien gleich oft verwendet, ist zu erwarten, daB sie durchschnittlich 
in der Halfte der Falle ubereinstimmen werden. Die beobachtete Ubereinstim- 
mung sollte also in irgendeiner Form gegeniiber der zufallig zu erwartenden 
Ubereinstimmung relativiert werden. Schutz (1952) war in dieser Forschungs- 
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richtung wohl der erste, der ein Modell fur den UrteilsprozeB mit einer Zu- 
fallskomponente ausdriicklich formulierte. Er berechnet den Ubereinstim- 
mungsprozentsatz, der beobachtet werden muB, damit der Forscher auf einem 
vom ihm gewahlten Konfidenzniveau davon ausgehen kann, dafi ein von ihm 
als mindestens notwendig erachtetes Ubereinstimmungsniveau, das frei von 
Zufallslibereinstimmung ist, tatsachlich erreicht wurde. 

Das Zufallsmodell, das Schutz seiner Korrektur zugrunde legte, ist etwas 
kompliziert und trifft wenig plausible Annahmen, z.B. daB kein Beobachter, 
wenn er im Zustand der zufalligen Beurteilung ist, eine Praferenz flir eine der 
Kategorien hat. Scott (1955) legte m. W. als erster einen Koeffizienten jt vor, in 
dem die Zufallskorrektur direkt vorgenommen wird, und zwar als Subtraktion 
der zufalligen Ubereinstimmung P e von der beobachteten Ubereinstimmung 
P,. Die Differenz P D - P c wird dann standardisiert mit Hilfe einer Division 
durch 1 - P e (das ist der maximal mogliche Wert, den die Differenz annehmen 
kann), wodurch erreicht wird, daB jt bei vollstandiger Ubereinstimmung = 
+ 1; bei Ubereinstimmung, die nicht iiber die Zufallserwartung hinausgeht, ist 
Jt = O. Somit 




Flir den Fall von 2 Beobachtern und einer dichotomen Kategorie fiihren wir 
folgende Notation ein: 



1. Beobachter 



2. Beobachter 





1 


0 




1 


a 


b 


Pi 


0 


c 


d 


qt 




P2 


qs 


i 



a, b, c, d sind die relativen Haufigkeiten in den Zellen, die Randsummen sind 
ebenfalls als Proportionen dar gestellt. P 0 wird als % U, also = a + d berech- 
net. P„ wird berechnet als ; was inhaltlich dem 

Versuch entspricht, die zufallige Ubereinstimmung auf der Basis von Popula- 
tions-Randwahrscheinlichkeiten und der Annahme zu berechnen, beide Beob- 
achter wiesen die gleiche Randverteilung auf, die der in der Population ent- 
sprache (Light, 1971, S. 367, zur Kritik an Scott s. auch Lisch & Kriz 1978). 



Cohen (1960) fiihrte einen inzwischen sehr bekannt gewordenen Koeffizienten 
X ein, der sich - abweichend von JT - auf die beobachteten Randverteilungen 
bezieht und nicht davon ausgeht, die Randverteilungen seien gleich. Das Ra- 
tionale fur die Zufallskorrektur ist also das gleiche wie bei jt, jedoch berechnet 
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sich hier P e als p t p 2 + qiq 2 . Light (1971) erweiterte X, und zwar sowohl flir 
mehr als zwei Beobachter, ein ,, overall group agreement measure" (neuere 
Ubersicht hierzu bei Conger 1980) als auch fur ein zu den Randverteilungen 
konditionales UbereinstimmungsmaB (Programm: McDermott & Watkins, 
1979). Ferner berichtet er einen Signifikanztest fur die gemeinsame Uberein- 
stimmung mehrerer Beobachter, wenn sie mit einem Standard - z.B. einer 
,,richtigen“ Klassifikation - oder wenn ein bestimmter Beobachter mit alien 
anderen verglichen werden sollen (Programm: Watkins & McDermott, 1979). 
Wackerly et al. (1978) haben diese Thematik fill' den Fall des Vergleichens 
eines Beobachters mit einem bekannten Standard weiterentwickelt. Sie unter- 
scheiden zwei Falle: Dent Beobachter wird die Randverteilung vorgegeben, 
oder er kann sie selbst bestimmen. Im ersten Fall bestehen Abhangigkeiten 
zwischen den Urteilen. die man flir die Berechnung der Zufallsubereinstim- 
mung beriicksichtigen muB. Wackerly et al. berichten eine Moglichkeit zur 
inferenzstatistischen Priifung von X auf Uberzufalligkeit auch unter der An- 
nahme intraindividueller Abhangigkeit der Urteile eines Beobachters. 

Uni die Rolle der Randverteilungen fur die Wahl eines Ubereinstimmungsma- 
Bes zu verdeutlichen, vergleichen wir zwei Falle: 



Falll 

1. Beobachter 



Fall II 
1. Beobachter 



2. Beobachter 



10 10 



1 


60 


20 


80 


1 


20 


60 


0 


20 


0 


20 


0 


0 


20 



80 20 20 80 



Im ersten Fall scheint die Ubereinstimmung mit 60% U groBer zu sein als in 
Fall II mit 40% U. Geht man jedoch von den Restriktionen durch die vorgege- 
benen Randsummen aus, so zeigt sich in 1 die geringstmogliche, in II die 
groBtmogliche Ubereinstimmung. Die deutliche Asymmetrie in der Katego- 
rienbenutzung schafft Probleme flir die Interpretation der Ubereinstimmung; 
Light nennt % U die absolute, die randverteilungskorrigierte Ubereinstim- 
mung die relative. Wieder hangt es von den Umstanden in der jeweiligen 
Untersuchung ab, ob man in das UbereinstimmungsmaB eine Korrektur flir 
abweichende Randverteilungen einbeziehen soil. 

Als Erweiterung hat Cohen (1968) das gewichtete X eingefiihrt, das es erlaubt, 
Nichtiibereinstimmung nach der Schwere der Folgen zu gewichten, wobei der 
Forscher die Gewichte festlegen muB. 
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Fleiss (1971) verallgemeinerte x filr die Situation, daB jeder Beobachtungsfall 
auf Nominalskalenniveau von der gleichen Anzahl Beurteiler eingestuft wird, 
aber die Beurteiler, die den einen Fall beobachten, nicht notwendigerweise die 
gleichen sind, die einen anderen Fall beobachten. Fleiss schildert auch die 
Moglichkeit zu bestimmen. wie hoch die Ubereinstimmung dariiber ist, eine 
bestimmte Person oder Verhaltensweise einer bestimmten Kategorie zuzuord- 
nen. Fleiss et al., 1972, behandeln den Fall, da8 eine Person durch mehr als 
eine Variable beschrieben wird. -Wenn bei der Berechnung der Ubereinstim- 
mung die zeitliche Abfolge berucksichtigt werden soil, also Sequenz und je- 
weilige Dauer der beobachteten Ereignisse, ergeben sich besondere Schwierig- 
keiten, auf die Hollenbeck (1978) eingeht, der x auch in diesem Fall anwendet 
(s.a. Asendorpf & Wallbott, 1979, sowie Abschn. 5.4). - Um prlifstatistische 
Fragen behandeln zu konnen, wurde fur x und gewichtetes x eine Stichpro- 
bentheorie entwickelt (Everitt 1968, Fleiss et al., 1969, Ubersicht bei Hubert 
1977, filr kleine Stichproben Wackerly et al., 1978, man beachte die korrigier- 
ten Formeln ‘in Fleiss et al., 1979). Die inferenzstatistischen Ansatze gehen 
durchweg davon aus, daB die wiederholten Beobachtungen ernes Beobachters 
oder verschiedener Beobachter voneinander unabhangig sind. Diese Annahme 
ist prinzipiell empirisch priifbar, beispielsweise durch den Vergleich der Uber- 
einstimmung zwischen einzelnen arbeitenden Beobachtern und solchen, die 
schon dadurch interagieren, daB sie die Beobachtung im gleichen Raurn durch- 
fiihren. Bisweilen fiihrt schon die Planung der Erhebung dazu, daB die aus 
statistischen Grunden geforderte Unabhangigkeit der Beobachtungen kaum zu 
erwarten ist, beispielsweise, wenn den Beobachtern gestattet wird, ihre Beur- 
teilung des friiher auftretenden X nach Beobachtung des spater auftretenden Y 
zu andern. Unabhangigkeit der Beobachtungen kann auch bedeuten: Die Er- 
gebnisse der Beobachtungen bei Wiederholungen sind nicht eine Funktion der 
Wiederholungen. Das erleichtert auch die inhaltliche Interpretation der Befun- 
de. denn im Idealfall andert wiederholte Beobachtung weder das Beobachtete 
noch das Beobachtungsinstrument. 

Die meisten UbereinstimmungsmaBe gehen davon aus, daB die Beobachter die 
gleichen, vor der Beobachtung definierten Kategorien benutzen. Man kann es 
jedoch auch den Beobachtern freistellen, welche und wieviele Kategorien sie 
definieren. Beispiele waren: Beurteiler verwenden verschiedene nosologische 
Klassifikationen, Lehrer verschiedene Notensysteme, Vpn beschreiben ihr Lo- 
sen der gleichen Denkprobleme mit unterschiedlichen Begriffen. Dann muB 
man dennoch nach Brennan & Light (1974) nicht darauf verzichten, Uberein- 
stimmung zu berechnen. Die Idee besteht darin, Paare von Beobachtungser- 
gebnisse zu betrachten: Ordnen von zwei Beobachtern der eine zwei Beobach- 
tungen in die Kategorie ..flussiger Verhaltensablauf“, der andere beide Beob- 
achtungen in seine Kategorie ,,geschickter Bewegungsvollzug“, so erfassen 
beide Kategorien Gleiches trotz inhaltlich verschiedener Bezeichnungen, und 
eine ilbereinstimmende Klassifikation eines Paares in dieselbe Kategorie stellt 
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einen Hinweis auf Ubereinstimmung der Beobachter dar wie auch der Fall, 
daB beide die Elemente eines Paares von Beobachtungen in jeweils andere 
Kategorien einordnen. Hubert (1977a) leitet Mittelwert und Varianz des Koef- 
fizienten von Brennan & Light ab und ermoglicht so die Prlifung auf signifi- 
kante Abweichung von Null und die Bestimmung von Konfidenzintervallen. 
Hubert zeigt auch, wie dieser Koeffizient auf den Fall geordneter Kategorien 
ausgedehnt werden kann. 

Es gibt inzwischen eine groBe Zahl von Ubereinstimmungskoeffizienten, von 
denen hier noch der G-Index erwahnt werden soil, den Holley & Guilford 
(1964) zunachst als MaB der Ahnlichkeit von zwei Personen, charakterisiert 
iiber n dichotome Items eingeflihrt haben. Holley & Lienert (1974) beschrei- 
ben ihn als UbereinstimmungsmaB mit einer typischen Anwendung, daB zwei 
oder mehr Beobachter eine oder mehrere Personen hinsichtlich n dichtotomer 
Merkmale charakterisieren. Weitere Verallgemeinerungen finden sich bei Ve- 
gelius (1977, 1977a, 1979) und in der dort referierten Literatur. - Die groBe 
Zahl von iibereinstimmungsmaBen hat zu statistischen Arbeiten gefiihrt, die 
die Koeffizienten vergleichen und ihre impliziten Annahmen systematisieren 
(z.B. Fleiss & Cohen, 1973; Janson & Vegelius, 1979; Hubert, 1979b). Krip- 
pendorff (1970a) geht von folgender, haufig verwendeter Formel fur Uberein- 
stimmungskoeffizienten aus: 



beobachtete Nichtubereinst. 

Ubereinstimmung =1 , T . . — — ; ; 

erwartete Nichtubereinst. 



Der Koeffizient wird 0, wenn die Ubereinstimmung rein zufallig ist, 1 wenn 
sie vollkommen ist, negativ, wenn sie hinter der Zufallserwartung zuriick- 
bleibt. Da nur Ubereinstimmung, nicht Zusammenhang allgemein interessiert, 
mlissen die Zellen einer Frequenzmatrix fiir die Beobachter i und j bei der 
Berechnung der Nichtlibereinstimmung gewichtet werden mit dy, wobei fiir 
ungeordnete Kategorien gilt: 



( 2 ) 



dii = 



0, wenn i = j, 

1, wenn i ¥= j. 



Wenn die Kategorien geordnet sind oder durch Skalenwerte mit Intervallska- 
lenniveau reprasentiert werden konnen (s.u.), wird folgende Gewichtungs- 
funktion vorgeschlagen: 



(3) 



d;j = (i — j) 2 , mit i, j als Kennwerten der Kategorien. 



Die erwarteten Frequenzen (ey) werden entweder bestimmt unter Annahme 
gleicher Randverteilungen: 
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(4) 



1 / tl: + n : 



n \ 2 ) \ 2 

wobei die folgende Frequenzmatrix die Notation definiert: 



2. Beobachter 



Kategorie 
I. Beobachter 



n = Gesamtzahl der 

beurteilten Einheiten 



Dabei bedeutet ny die Anzahl der Falle in Zeile i und Spalte j. Ein Punkt im 
Index zeigt an, daB iiber die entsprechende Zeile oder Spalte summiert wurde. 

Unter Berlicksichtigung ungleicher Randverteilungen ergibt sich: 

(5) ejj = - rti.n.j . 

n 

Wenn als MaB flir die beobachtete Nichtubereinstimmung 

SSnijd,, 

definiert wird und fur die zufallsbedingte Nichtubereinstimmung 

SSe.jdij , 



so erhalt (1) die Form: 



(6) 



a — 



SStlydy 

22e;jdij 



Scotts Jt erhalt man durch Einsetzen von (2) und (4) in (6), Cohens X durch 
Einsetzen von (2) und (5) in (6), den Intraklassen-Korrelationskoeffizienten 
nach Pearson (1901) durch Einsetzen von (3) und (4) in (6) und Spearmans 
Rangkorrelationskoeffizienten Q durch Einsetzen von (3) und (5) in (6). Nach 
Krippendorffs Systematik hat der Forscher also zwei Auswahlentscheidungen 
zu treffen, ob Unterschiede in den Randverteilungen zum Fehler geschlagen 
werden sollen oder nicht, und ob die Kategorien eine Ordnung aufweisen oder 
nicht. In der systematischen Ubersicht von Fleiss (1975) kommt als weiterer 
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Klassifikationsgesichtspunkt die Frage hinzu, ob ein ubereinstimmungsmaB 
die Proportionen der Ubereinstimmung iiber das Vorliegen eines Merkmals 
und der Ubereinstimmung iiber Nichtvorliegen symmetrisch behandeln oder 
nicht. Wenn, wie bei taxonomischen Fragestellungen nicht selten, positive 
Merkmalsauspragung sehr selten, Fehlen des Merkmale jedoch haufig auftritt, 
kann es sinnvoll sein, in einem ubereinstimmungsmaB nur die Falle zu be- 
riicksichtigen, in denen von wenigstens einem Beobachter positive Merkmals- 
auspragung festgestellt wurde (so z.B. Dice, 1945; weiteres bei Fleiss, 1975). 
SchlieBlich unterscheiden sich UbereinstimmungsmaBe danach, ob in ihnen 
eine Korrektur fur Zufallsiibereinstimmung vorgenommen wird oder nicht 
(s.o.), und Fleiss weist darauf hin, daB die Art dieser Korrektur in ft und % nur 
eine von mehreren moglichen ist. 

Einen etwas anderen Akzent setzen Landis & Koch (1977, 1977a). Sie schat- 
zen nicht nur die GroBe von Ubereinstimmungen, sondern priifen an einem 
oder simultan mehreren Datensatzen mehrere Hypothesen Uber das Zustande- 
kommen von Daten einer Reliabilitatsstudie mit Hilfe eines allgemeinen An- 
satzes zur inferenzstatistischen Analyse von multivariaten kategorialen Daten. 
Dieses Vorgehen ermoglicht es u.a., gezielt die Ursachen fehlender Uberein- 
stimmung zu identifizieren, wenn z.B. detailliert festgestellt wird, die Beob- 
achter A und B unterschieden sich signifikant im Gebrauch der Kategorien X 
und Y bei der Teilstichprobe s (vgl. auch Bergen 1980). AbschlieBend sei auf 
Trippi & Settle (1976) hin gewiesen, die eine nichtparametrische Variante der 
internen Konsistenz entwickeln, sowie auf Kaye (1980), dessen Ansatz beson- 
ders fur die Auswertung sequentieller Beobachtungen relevant ist. 

Man kann die Frage aufwerfen, welche Relevanz diese Vielzahl von Moglich- 
keiten fur die Forschungspraxis hat, ob also die Unterscheidungen zwar von 
theoretischem Interesse sind, jedoch - insbesondere bei groBen Stichproben 
- die SchluBfolgerungen gleich sind, die aus verschiedenen Ubereinstim- 
mungsmaBen gezogen werden. Zu dieser Frage ist uns keine Literatur be- 
kannt, so daB pragmatische Erwagungen hinter dem Versuch zuriickstehen 
miissen, die theoretisch angemessene Form der Priifung einzusetzen. 



5.2 UbereinstimmungsmaBe fur ordinalskalierte Daten 

Wenn Beobachter ihre Ergebnisse als Rangreihen mitteilen oder Forscher Be- 
obachtungen als Rangreihen auffassen, dann laBt sich nicht priifen, ob Beob- 
achter in ihren Urteilen iiber die absolute Merkmalsauspragung iibereinstim- 
men; Unterschiede in Skaleneinheit und Skalenursprung konnen sich bei alien 
im folgenden besprochenen iibereinstimmungsmaBnahmen nicht mindernd 
auswirken. Vielmehr sind alle Transformationen der Skaleneinheiten zugelas- 
sen, welche die Ordnung der betrachteten GroBen nicht verandern. Berechnet 
man die Ubereinstimmung zwischen 2 Rangreihen, so laBt sich Abweichung 
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entweder beschreiben als Summe der quadrierten Differenzen, wie dies z.B. in 
Spearmans Rangkorrelationskoeffizient p geschieht, oder als Summe der abso- 
luten Differenzen der Wertepaare, so in Spearmans (1906) ,,footrule“ (vertiefte 
Darstellung in Hubert, 1979). Schon Spearman wies darauf hin, daB eine 
Quadrierung groBere Abweichungen starker gewichtet als kleinere. Wenn man 
erwartet, daB extremere MeBwerte mehr MeBfehler enthalten als mittlere, hat 
der MeBfehler bei MaBen wie p einen starkeren EinfluB auf die Bestimmung 
der Konsensstarke. Spearmans p bezieht sich auf Rangdifferenzen, was trivia- 
lerweise impliziert, jeder Rangplatz sei von seinem jeweiligen Nachbarn gleich 
weit entfernt. Kruskal (1958) hat jedoch auf eine Interpretationsmoglichkeit 
von p hingewiesen, die ohne diese Annahme auskommt: Wenn man Paare von 
Tripeln vergleicht (je ein Tripel stammt von einem Beobachter und stellt eine 
Rangordnung von drei Beobachtungen dar), laBt sich p als MaB filr proportio- 
nale Fehlerreduktion interpretieren. 

Bei der Auswahl zwischen verschiedenen MaBen ftir ordinale Ubereinstim- 
mung kann man die Frage beachten, wie Rangplatzbindungen (ties) behandelt 
werden (zur gesamten Diskussion s. Hildebrand et al., 1977). In deni von 
Goodman & Kruskal (1954) vorgeschlagenen y werden alle Rangplatzbindun- 
gen nicht beachtet, wahrend sie in Somers’ d xy beriicksichtigt werden. Wilson 
(1974) schlieBt nur die Beobachtungspaare aus, die auf beiden Variablen rang- 
platzgebunden sind. 

Will man die ordinale Ubereinstimmung zwischen mehr als zwei Beobachtern 
ermitteln, so berechnet man ublicherweise den Konkordanzkoeffizienten W 
von Kendall (1948). Er wird Null bei maximaler Nichtiibereinstimmung und 
Eins bei volliger Ubereinstimmung, d.h. wenn Rangreihen identisch sind. Er 
laBt sich auf Uberzufalligkeit priifen. Bei m Beurteilern besteht folgende Be- 
ziehung: 

. , mW — 1 

mtttleres p — — . 

m — 1 

Ein niedriges W schlieBt nicht aus, daB die Gesamtmenge der Beobachter in 2 
oder mehr Mengen unterteilt werden kann. die jeweils untereinander stark 
ubereinstimmen. Wahrend W die mittlere Ubereinstimmung aller Rangreihen 
untereinander beschreibt. kann Konsens auch gepriift werden als Ubereinstim- 
mung mit einem Kriterium, d.h. einer vorgegebenen Rangordnung (Lyerly, 
1952; Cureton, 1958, 1965; Taylor & Fong, 1963; Taylor, 1964). Unterschiede 
in der Konsensstarke zwischen unabhangigen Beobachtergruppen lassen sich 
inferenzstatistisch priifen (s. Stewart et al., 1979, S. 310ff.). Schucany & Fraw- 
ley (1973) legen ein Priifverfahren ftir folgende Fragen vor: Besteht innerhalb 
einer Gruppe von Beobachtern geniigend Ubereinstimmung? und wenn ja: 
Besteht zugleich signifikante Ubereinstimmung zwischen zwei Gruppen von 
Beurteilern? (Filr Weinkenner sei in diesem Zusammenhang auf Amerine & 
Roessler, 1976; hingewiesen.) 
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5.3 UbereinstimmungsmaBe fur intervallskalierte Daten 

5.3.1 Einfache varianzanalytische Ansatze und Intraklassen-Koeffizienten 

Wir behandeln zunachst die von Ebel (1951) eingefiihrte varianzanalytische 
Auswertung von Reliabilitatsstudien einschlieBlich der dabei meistens vorge- 
nommenen Bestimmung eines Intraklassen-Korrelationskoeffizienten (Uber- 
sichten z.B. Haggard, 1958; Maxwell & Pilliner, 1968; Landis & Koch, 1975; 
Bartko, 1976; Kraemer & Korner, 1976; Werner, 1976; Asendorf & Wallbott, 
1979). Wenn jeder von d Beobachtern einmal ein Verhaltensmerkmal an alien n 
Personen beobachtet. laBt sich folgendes Modell filr das Zustandekommen 
einer Beobachtung J,. an Person i durch Beobachter j aufstellen (hier nach 
Landis & Koch, 1975): 



(1) Jij ~ B + s i + e ij> 

wobei p den Gesamtmittelwert, also die mittlere Beobachtungsauspragung, s, 
den Effekt des Merkmalstragers i und e M den verbleibenden Residualwert oder 
Fehler wiedergibt. Fiir ein inferenzstatistisches Vorgehen muB man die An- 
nahmen eines varianzanalytischen Modells mit Zufallseffekten treffen: Die n 
Personen stellen eine Zufallsstichprobe aus einer angegebenen Population dar; 
die S; sind normal verteilt mit einem Mittelwert = o und der Varianz o^; die ey 
sind normalverteilt mit einem Mittelwert = o und der Varianz O^; die S; und ey 
sind unabhangig voneinander. Selvage (1976) diskutiert diese Annahmen und 
einige Auswege, wenn sie nicht erfullt sind. Der Intraklassen-Koeffizient ist 
fiir (1) definiert als 



( 2 ) 



0 = 



also als Verhaltnis der Varianz zwischen den Merkmalstragern zur Gesamtva- 
rianz. Um Begriff und Namen des Intraklassen-Koeffizienten zu verstehen, 
kann man von dem Beispiel ausgehen, in dem der korrelative Zusammenhang 
zwischen den IQs der Personen eines Zwillingspaares bestimmt werden soil. 

Ein Produkt-Moment-Korrelationskoeffizient r beruht auf Paaren von Daten, 
je ein Datum wird dem Vektor X. das andere dem Vektor Y zugeordnet. 
Welchen Zwilling ordnet man X, welchen Y zu? r kann je nach Zuordnung 
erheblich schwanken. Werner (1976, S. 489): ,,Allgemein tritt dieses Problem 
immer dann auf, wenn Objekte zwar in Klassen einteilbar sind, aber innerhalb 
derselben nicht weiter unterschieden werden sollen, und man generell ermit- 
teln will, ob Objekte einer Klasse einander ahnlicher sind als Objekte verschie- 
dener Klassen." 
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Modell 1 berucksichtigt nicht explizit Unterschiede zwischen den Beobach- 
tern. Diese kann man als zufallige oder als fixierte Beobachtereffekte einftth- 
ren. FaBt man die Beobachter als eine Zufallsstichprobe aus einer groBeren 
Population potentieller Beobachter auf, so ergibt sich Modell 

(3) Jij = H + Sj + dj + e ij> 

wobei dj zusatzlich den Effekt des Beobachters j reprasentiert. Die dj sind 
normalverteilt mit Mittelwert = o und Varianz Oj; die Sj, dj und ey sind vonein- 
ander unabhangig. Der diesem Modell entsprechende Intraklassen-Koeffizient 
ist 



V C 7 9 7’ 

Ot + Oj + O' 

wobei Oj die Varianz darstellt, die auf Unterschiede zwischen den Beobachtern 
zuriickgeht, also ,, interobserver bias“ darstellt. FaBt man die Beobachter als 
fixiert auf und interessieren nur Aussagen liber ihre VerlaBlichkeit, weil gerade 
sie in weiteren Studien eingesetzt werden sollen, so ergibt sich ein (3) ver- 
gleichbares ,, mixed model 1 '. Wenn die Varianz zwischen den Beobachtern 
ausgeklammert werden soli, gibt es zwei Moglichkeiten. Bei Ebel, Haggard 
und Winer (1971) findet sich die entsprechende Varianzkomponente weder im 
Zahler noch im Nenner der Reliabilitatsformel, bei Rajaratnam (1960) und 
Krippendorff (1970, s. Werner, 1976) bleibt die Gesamtvarianz im Nenner; flir 
die sich dann ergebenden Schatzprobleme und fur die Bestimmung von Konfi- 
denzintervallen s. Lu (1971) sowie Fleiss & Shrout (1978). Werner weist darauf 
hin, daB der Intraklassenkoeffizient nur dann deni iiber alle Beobachterpaare 
gemittelten Produkt-Moment-Korrelationskoeffizienten gleich ist, wenn die 
Mittelwerte und Varianzen aller Beobachter gleich sind und bei der Berech- 
nung des Intraklassen-Koeffizienten die Varianz zwischen den Beobachtern 
nicht zur Fehlervarianz geschlagen wird. 

Eine ausfiihrliche Ableitung und Begriindung der varianzanalytischen Reliabi- 
litatspriifung fiir den univariaten Fall ohne Replikation der Beobachtung findet 
sich in Winer (1971, S. 283ff.). Winer verdeutlicht die beiden Entscheidungen. 
die der Forscher ftir seine Reliabilitatsaussage zu fallen hat: Er kann die Ver- 
laBlichkeit entweder einer typischen einzelnen oder der iiber alle Beobachter 
gemittelten Messung bestimmen wollen. und zwar in beiden Varianten entwe- 
der mit oder ohne Einbezug der Varianz zwischen den Beobachtern in die 
Fehlervarianz. Die Wahl zwischen diesen beiden Alternativen wird er begriin- 
den wollen, wozu er die folgenden Uberlegungen heranziehen konnte: Die 
Ausgangsfrage ist stets, zu welchem praktischen oder wissenschaftlichen 
Zweck er die Beobachtungen verwendet. Hangt beispielsweise die Einfuhrung 
von Produkten auf einen Markt von den Schatzurteilen mehrerer Experten ab, 
und werden diese Urteile zusammengefaBt, ist zweifellos die Reproduzierbar- 
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keit der durchschnittlichen Schatzwerte gefragt. Wenn der Beurteiler jedoch 
typischerweise einzeln arbeitet, wie z.B. Lehrer bei der Benotung ihrer Schil- 
ler, ist die VerlaBlichkeit der individuellen Urteile von Interesse. Auch die 
Entscheidung iiber die Einbeziehung der Varianz zwischen den Beurteilern in 
die Fehlervarianz hangt vom Verwendungszweck ab. Immer dann, wenn Un- 
terschiede zwischen den iiber alle Beobachtungen berechneten Mittelwerten 
der einzelnen Beurteiler nicht zu Unterscheiden in den Entschlilssen fiihren, 
zu denen diese Beobachtungen die Basis lieferen, sollte die Varianz zwischen 
den Beurteilern nicht zur Fehlervarianz geschlagen werden. Dies sollte hinge- 
gen wohl geschehen, wenn -wie etwa bei der zentralen Vergabestelle in ihren 
Entscheidungen iiber Studienplatze - Noten verschiedener Schiiler, die von 
verschiedenen Lehrern stammen, gegeneinander aufgerechnet oder Durch- 
schnittswerte verglichen werden, die von verschiedenen Beurteilergruppen 
stammen. 

Die detaillierte Information iiber die Reproduzierbarkeitsstruktur der Daten 
wird bei dieser Art Analyse erkauft dutch starke Modellannahmen: (1) der 
MeBfehler korreliert nicht mit dem wahren Wert; (2) die Stichprobe der beob- 
achteten Vpn ist eine Zufallsstichprobe aus der Population der Personen, auf 
die Schliisse gezogen werden sollen; (3) die Stichprobe der MeBinstrumente 
oder Beobachter, welche Replikationen bereitstellen, ist in Modell (3) eine 
Zufallsstichprobe vergleichbarer Instrumente oder Beobachter; (4) die Schat- 
zung der Fehlervarianz basiert auf der Zusammenfassung der Varianzen inner- 
halb jeder Vp. Die Datenerhebungssituation muB auf die Bedingungen (2) und 
(3) zugeschnitten werden, andere Modellimplikationen lassen sich nach der 
Erhebung priifen: Da der ,,wahre Wert“ iiber alle Beobachter konstant bleibt, 
muB die Korrelation zwischen den verschiedenen Beobachtern statistisch kon- 
stant sein; die entsprechende Varianz-Kovarianzmatrix lieBe sich auf Honioge- 
nitat priifen. 

Wenn jeder Beobachter r wiederholte Einschatzungen des gleichen Verhaltens 
an den gleichen Personen vornimmt, laBt sich (3) fiir die k-te Replikation 
erweitern auf 

(5) Jijk ft A s, -f dj ~h (sd)jj + 

wobei (sd)y die Interaktion zwischen Beobachter j und Merkmalstrager i dar- 
stellt und ein MaB dafiir ist, wie sehr j bei der Beurteilung von i von seinem 
iiblichen Reaktionsmuster abweicht. Will man nicht, wie alle bisher vorgeschla- 
genen Modelle, annehmen, die Varianzkomponente zu Lasten des Zufallsfeh- 
lers sei fiir alle Beobachter gleich, so kann man auf ein Modell von Grubbs 
(1948, 1973) zuriickgreifen (s.a. Overall, 1968 fiir die Situation, in der n 
Personen auf m Bedingungen aufgeteilt und anschlieBend von zwei unabhangi- 
gen Beobachtern beurteilt werden). Beurteilt jeder Beobachter mehr als ein 
Merkmal, so kommt eine multivariate Erweiterung des varianzanalytischen 
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Ansatzes von Fleiss (1966) in Frage, allerdings insbesondere auch die spater 
besprochenen Generalisierbarkeitsstudien (zur Diskussion, wie die Residual- 
varianz zu schatzen sei, s. Huck 1978). 

Diesen Abschnitt abschlieBend sollen noch einige Varianten besprochen wer- 
den. Lawlis & Lu (1972) schlagen einen bei Tinsley & Weiss (1975) kritisch 
besprochenen Index vor, der es erlaubt, Ubereinstimmung als fehlerfreien Fall 
festzulegen, aber auch als Abweichung bis zu einer, bis zu zwei, etc. MeBein- 
heiten der gewahlten Skala. Finn (1970, 1972) weist darauf hin, daB bei va- 
rianzanalytischen Reliabilitatsschatzungen Beobachtungen ilber mehr als eine 
Person oder Verhaltensweise vorliegen mlissen, und die Varianz zwischen den 
Personen oder Verhaltensweisen muB ausgepragt sein, damit sich ein geniigend 
groBer Koeffizient ergeben kann. Situationen sind jedoch nicht selten, in de- 
nen nur eine Gegebenheit, diese jedoch mehrfach beobachtet wil'd, und fur 
diesen Fall ist Finns Methode gedacht (zur Kritik insbesondere an Finns Infe- 
renzstatistik s. Tinsley & Weiss, 1975). 

Deni varianzanalytischen Modell folgend hat Krippendorff (1970) einen An- 
satz vorgelegt. der insbesondere die wahrend der Konstruktionsphase von 
Kategoriensystemen wichtige Frage nach Art und GroBe der einzelnen Quel- 
len fur fehlende VerlaBlichkeit zu beantworten gestattet. Globale Gesamtwerte 
geben keine Information ilber mogliche Schritte zur Verbesserung. - Detail- 
lierte Informationen konnen erwunscht sein ilber 

(1) die geschatzte Reliabilitat einer Datenmenge ilber alle Datenquellen. Man 
konnte diese Schatzung Datenreliabilitat nennen und als MaB fiir das gene- 
relle Vertrauen in der Daten interpretieren; 

(2) das geschatzte AusmaB, in deni sich die Datenreliabilitat verbessern lieBe, 
wenn die Urteile einiger Beurteiler transformiert oder neu definiert wiir- 
den. Diese Schatzung erfaBt den systematischen Fehler des Verfahrens und 
ergibt zusammen mit deni Zufallsfehler den Betrag, der bis zu einer volli- 
gen Datenreliabilitat fehlt; 

(3) fiir jeden einzelnen Beobachter das geschatzte AusmaB seiner VerlaBlich- 
keit, also die individuelle Reliabilitat. Mit dieser Information lieBe sich 
feststellen, ob - und, wenn ja, welche - einzelne Beobachter besonders 
unzuverlassige, d.h. hier: vom allgemeinen Trend der Beobachtergruppe 
abweichende Werte liefern. Je nach Fragestellung konnte dann die Schu- 
lung dieser Beobachter verbessert oder die Daten dieser Beobachter konn- 
ten nicht ausgewertet werden; 

(4) fiir jeden einzelnen Beobachter eine Schatzung des AusmaBes, in deni seine 
Beobachtungen durch Schulung oder Transformation korrigierbar sein 
wiirden. Geschatzt werden miiBte also der systematische individuelle Be- 
obachter fehler, der zusammen mit deni individuellen Zufallsfehler die indi- 
viduelle Unreliabilitat ausmacht; 

(5) fiir jede einzelne Kategorie (recording unit) eine Schatzung des AusmaBes, 
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in dem eine Zufallsstichprobe von Beobachtern bei ihren Beobachtungen 
zu dieser Einheit ubereinstimmt. Diese Schatzung der Reliabilitat einer 
Kategorie ermoglicht die gezielte Modifizierung oder Eliminierung einzel- 
ner Kategorien eines Systems. 

Das Verfahren von Krippendorff erlaubt, diese Fragen zu beantworten. So- 
rembe (o.J.) hat auf Druckfehler in der Arbeit von Krippendorff hingewiesen 
und ein Computerprogramm bereitgestellt. 



5.3.2 Generalisierbarkeitsstudien 

Generalisierbarkeitsstudien (Cronbach et al. 1963, 1972; Gleser et al. 1965) 
verallgemeinern den varianzanalytischen Ansatz; man kann diese Studien als 
Anwendung der Prinzipien multifaktorieller und multivariater Varianzanaly- 
sen auf die Reliabilitatsproblematik auffassen. Alle Generalisierbarkeitskoeffi- 
zienten sind Intraklassen-Koeffizienten; sie sind MaBe der Verallgemeinerbar- 
keit einer Beobachtung liber verschiedene Entstehungsbedingungen. Die Ge- 
neralisierbarkeitstheorie stellt insofern gegenuber der Reliabilitatskonzeption 
in der klassischen Testtheorie eine „Liberalisierung“ dar (s. Kristof in diesem 
Band), als nicht gefordert wird, die Beobachtungen unter verschiedenen Be- 
dingungen miiBten „parallel“ sein, d.h. gleiche Mittelwerte, Varianzen und 
Kovarianzen aufweisen. 

Flir die Untersuchung der Reproduzierbarkeit von Beobachtungen kann man 
folgende Punkte als wesentliche Fortschritte gegenuber dem einfachen va- 
rianzanalytischen Ansatz herausstellen: (1) die ausdrlickliche Festlegung der 
Facetten, auf die verallgemeinert werden soil, (2) die Hinweise auf den Zusam- 
menhang zwischen Aussageabsicht und Definition des MeBfehlers, und (3) die 
ausdrilckliche Unterscheidung zwischen Generalisierbarkeits- oder G-Studien 
und Entscheidungs- oder D-Studien, womit der Zweck, den die Reliabilitats- 
analyse haben soil, thematisiert wird, namlich eine wissenschaftliche oder pra- 
xisbezogene Entscheidung aufgrund der Beobachtungen zu fallen. 

Cronbach et al. (1972, S. 15) formulieren den Grundsatz folgendermaBen: 
,,Der MeBwert, auf den die Entscheidung sich stiitzen soil, ist nur einer von 
vielen MeBwerten, die den gleichen Zweck erfiillen konnten. Derjenige, der 
die Entscheidung zu treffen hat, interessiert sich fast nie fur die Reaktion, die 
auf ein ganz bestimmtes Reizobjekt oder auf die speziellen Fragen, gegenuber 
einem ganz bestimmten Versuchsleiter oder in dem einen besonderen Augen- 
blick der Testdurchflihrung gegeben werden. Wenigstens einige dieser MeBbe- 
dingungen konnten variiert werden ohne den MeBwert weniger akzeptabel flir 
denjenigen zu machen, der die Entscheidung zu fallen hat. D.h., es gibt ein 
Universum von Beobachtungen, und jede dieser Beobachtungen hatte eine 
brauchbare Basis filr die Entscheidung abgegeben. Der ideale Wert, auf den 
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man die Entscheidung basieren konnte, ware der MeBwert einer Person, ge- 
mittelt fur alle akzeptierbaren Beobachtungen, den wir ihren ,Universalwert‘ 
(Universe score) nennen wollen. Der Untersucher benutzt den beobachteten 
Wert oder eine Funktion des beobachteten Wertes als ob das der Universal- 
wert ware. Das heiBt, er generalisiert von der Stichprobe auf das Universum.“ 
Die Frage nach der ,Reliabilitdt’ entwickelt sich somit zu einer Frage nach der 
Genauigkeit der Generalisation oder der Verallgemeinerbarkeit. Wenn man 
die VerlaBlichkeit von Beobachtungen prlifen will, ware es gilnstig, moglichst 
im vollstandig iiberkreuzten Versuchsplan die Bedingungen Beobachter, Kate- 
gorien, Personen und Zeitpunkte einzufiihren. Dann laBt sich auch die von 
Kraemer & Korner (1976) beklagte Vermischung von interindividuellen Un- 
terschieden, Stability des Merkmals, intraindividuelle Konsistenz jedes Beob- 
achters und interindividuellen Unterschieden zwischen verschiedenen Beob- 
achtern entmischen. Ein oft erwiinschtes und einfaches Ergebnis lage dann 
vor, wenn der Haupteffekt zu Lasten der Beobachter und alle Interaktionen, 
an deren Definition die Beobachter beteiligt sind, keine nennenswerte Varianz 
auf sich vereinigen. Dann konnte man annehmen, es bestunden keine Unter- 
schiede zwischen den Beobachtern in ihren allgemeinen Reaktionstendenzen 
oder in ihren Skalenverankerungen, sie beniitzten die Kategorien gleichartig, 
beurteilten die Personen nicht idiosynkratisch und schwankten in ihrem Beob- 
achtungsverhalten nicht iiber verschiedene Zeitpunkte (zur Verbindung von 
Kosten-Nutzen-Analysen bei der Planung von Beobachtungsstudien mit Ge- 
neralisierbarkeitsanalysen s. Gleser et al. 1965; fur die Weiterentwicklung der 
multivariaten G-Studien z.B. auf Profilreliabilitat oder Verallgemeinerbarkeit 
von gain scores s. Joe & Woodward, 1976; Anwendungsbeispiele: Rudinger & 
Feger, 1970; Levy, 1974; Feger, 1978; Weiterentwicklung bei NuBbaum, 
1980). 



5.3.3 Pfadanalytische Modelle fur die Reliabilitdtsprufung 

Noch ,,liberaler“, d.h. allgemeiner gegenuber dem einfachen varianzanalyti- 
schen Ansatz als die Generalisierbarkeitstheorie ist die pfadanalytische Prii- 
fung von Modellen der Datenstruktur, die Annahmen liber den MeBfehler 
einschlieBt. Der Ansatz von Joreskog erfordert nicht einmal die Annahme, 
verschiedene Beurteiler wiirden gleiche MeBeinheiten benutzen (Werts et al., 
1974). Wesentlicher jedoch als die Flexibility scheint mir die Moglichkeit zu 
sein, Voraussetzungen priifen zu konnen, die den verschiedenen Ansatzen, 
auch dem Intraklassen-Koeffizient, zugrunde liegen. So laBt sich die Annahme 
priifen, alien Messungen liege der gleiche wahre Wert x zugrunde. LaBt sich 
diese Annahme nicht halten, dann ist die Bedeutung einer varianzanalytischen 
Reliabilitatsschatzung unklar. Moglicherweise liegt nicht nur ein ,,wahrer“ 
Faktor zugrunde, und die Annahmen iiber die Unabhangigkeit der Fehler 
konnen falsch sein. Dann laBt sich weiter priifen, ob die Annahme sowohl der 
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Intraklassen-Korrelation als auch der Generalisierbarkeitstheorie gilt, die Ma- 
Be verfiigten alle liber die gleiche MeBeinheit, d.h. „essentially tau equivalent" 
(Lord & Novick, 1968, S. 50) sind. ,,lf this hypothesis is rejected then the 
Anova formulation is rejected whether used for estimating reliability or for 
generalizability procedures." (Werts et al., 1974, S. 29). Weiter laBt sich die im 
Intraklassen-Koeffizient implizierte Annahme priifen, die MeBfehler der ein- 
zelnen Messungen seien unabhangig. 

Fiir die pfadanalytische Behandlung der Reliabilitatsproblematik sind folgende 
Schritte charakteristisch: 1. Man nimmt an, jede Messung sei aus einem wah- 
ren Wert und einem MeBfehler zusammengesetzt. 2. Man legt die Art des 
Zusammenhanges zwischen wahrem Wert und MeBfehler jeder Messung mit 
wahrem Wert und MeBfehler jeder anderen Messung in einem Modell fur die 
gesamte Datenmenge explizit fest; das pfadanalytische Vorgehen ist in dieser 
Hinsicht, wie die Art des Zusammenhanges festgelegt wird, sehr flexibel. 3. 
Um die Parameter in diesem Modell bestimmen und das Modell auf seine 
Anpassungsglite priifen zu konnen, genligt nicht eine Messung nur einer Va- 
riablen. Auf irgendeine der folgenden Weisen muB repliziert werden. Ver- 
schiedene Arten der Replikation liber Person oder Beobachtungsgegebenhei- 
ten lassen sich auch miteinander verbinden. Wir unterscheiden folgende Mog- 
lichkeiten: (A) Eine Variable wird zu zwei oder mehr Zeitpunkten erhoben 
(Retest-, stability"). (B) Eine Variable wird zum gleichen Zeitpunkt durch 
verschiedene Operationalisierungen erfaBt (interne Konsistenz, hier oft als 
..reliability" bezeichnet). (C) Zwei oder mehr inhaltlich verschiedene Varia- 
blen werden an den gleichen Personen erhoben, meistens in Verbindung mit A 
oder B. Werden A und B verbunden, kann man die Beziehungen zwischen 
Messungen und Konstrukten differenziert spezifizieren - ,, measurement 
specification”; wird C mit A oder B oder beiden kombiniert, so lassen sich die 
Beziehungen zwischen den Konstrukten spezifizieren - ,, theoretical specifi- 
cation". Literatur zu A: Heise, 1969; Wiley & Wiley, 1971; Werts et al., 1971; 
Wheaton et al., 1977; Anwendungsbeispiel: Feger, 1978. Literatur zu A und 
B: Costner, 1969, Blalock, 1970; Hauser & Goldberger, 1971. Zu C mit A, 
teils auch mit B: Bohrnstedt, 1969; Duncan, 1969; Heise, 1970. Probleme der 
theoretischen und der MeBspezifikation gleichzeitig behandeln: Duncan. 
1972, 1975, Hannan et al., 1974; Joreskog & Sorbom, 1976; Mayer & Youn- 
ger. 1974; Wheaton et al., 1977. 

Bei der pfadanalytischen Untersuchung von MeBfehlern wird oft ausdriicklich 
unterschieden zwischen dem zu erfassenden Konstrukt, bisweilen als unob- 
served variable bezeichnet. und den - meBfehlerhafteten - Beobachtungen. 
Jacobson & Lalu (1974) unterscheiden drei Methoden, wie man die durch 
MeBfehler unverfalschten Beziehungen zwischen Konstrukten bestimmen 
kann, iiber einen einfachen IncLikator (Single indicator), liber einen Index und 
ilber mehrfache Indikatoren (multiple indicators). Arbeitet der Forscher nur 




44 



Hubert Feger 



mit einem Indikator, so muB er annehmen, dieser erfasse das Konstrukt in dem 
Sinne gut, als er den groBten Teil der Variation der wahren Werte einfange, 
und ferner bestehe kein Spezifikationsfehler im Modell: ,,In other words, 
given two theoretical variables, both of which are measured by single indica- 
tors, these two indicators are assumed to be associated only through the posi- 
ted relationship linking the two theoretical variables. If the latter condition 
cannot be reasonably assumed - and in most practical situations it cannot - 
estimates of the structural parameters will be biased even when the first as- 
sumption holds. “ Ein Index wird aus mehreren einzelnen Indikatoren als Ge- 
samtwert gebildet. Dabei ware theoretisch begrlindet zu entscheiden, wieviele 
und welche Indikatoren kombiniert werden, welches Gewicht jeder einzelne 
Indikator erhalt, und welcher Art, z.B. additiv, die Zusammenfassung sein 
soil. Arbeitet man mit multiplen Indikatoren, so legt man in einer Hilfstheorie 
(auxiliary theory) fest, wie die Indikatoren mit bestimmten Konstrukturen 
verbunden sind; diese Festlegungen sind meistens priifbar und die Qualitat 
eines jeden Indikators laBt sich bestimmen (s. Costner, 1969; Blalock, 1969; 
Mayer & Younger, 1974). Beim Vergleich der drei Methoden bevorzugen 
Jacobson & Lalu aus mehreren Griinden den multiple indicator approach. 



5.4 Besondere Erhebungsplane 

Keineswegs nur bei intervallskalierten Daten konnen durch die Art der Erhe- 
bung Beobachtungen in einer Ordnung anfallen, die fur die Reliabilitatsprii- 
fung besondere Probleme oder Moglichkeiten ergibt. Wir skizzieren zwei Fal- 
le; im ersten liegen die Beobachtungen als Paarvergleichsmatrix tiber alle Paare 
von Beobachtungsgegebenheiten vor, im zweiten Fall ist bei der Analyse der 
Beobachtungen deren Sequenz zu beriicksichtigen. Hubert (1979a) hat vier 
Fragestellungen formuliert, die sich ergeben, wenn Paarvergleichsmatrizen, in 
deren Zellen Range stehen, auf Ubereinstimmung (concordance) betrachtet 
werden: 1. Die Ubereinstimmung zwischen zwei oder mehr Matrizen - hier: 
zwischen Beobachtern, die ihre Beobachtungen als Range angeben. 2. Der 
Vergleich mehrerer Matrizen mit einer spezifischen Matrix - hier: z.B. Ver- 
gleich aller Beobachter mit einem Standard. 3. Eine Technik zum Vergleich der 
Ubereinstimmung innerhalb und zwischen Teilmengen von Matrizen, z.B. 
Vergleich von Beobachterteilgruppen untereinander und miteinander. 4. Suche 
nach einer Matrix, die alle Urteile aller Beobachter am besten reprasentiert. 
Die Hypothese, die Ubereinstimmung sei nur zufallig, wird geprlift, indent 
man das beobachtete UbereinstimmungsmaB mit der Verteilung derjenigen 
UbereinstimmungsmaBe vergleicht, die bei alien logisch moglichen Permuta- 
tionen der intakten Zeilen und Spalten einer der verglichenen Matrizen entste- 
hen. Auf diese Weise werden Abhangigkeiten, die zwischen den Werten in den 
Zellen der Matrizen durch die Rangordnung liber alle Zellenwerte einer Matrix 
entstehen, ftir die Inferenzstatistik beriicksichtigt. Ein Spezialfall ist gegeben. 
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wenn in den Zellen nicht Range, sondern dichotome Werte stehen, wie z.B. 
bei soziometrischen Wahldaten (dazu: Hubert & Baker, 1978a). 

1m zweiten Fall soli bei der Bestimmung der Reliabilitat die in den Aufzeich- 
nungen jedes einzelnen Beobachters enthaltene Information tiber die Ordnung 
oder zeitliche Abfolge der verschiedenen Verhaltensweisen beriicksichtigt wer- 
den. Dies ist immer dann erforderlich, wenn aus der Reihenfolgeinformation 
inhaltliche Schlilsse gezogen werden sollen, z.B. in Kausal- und Bedingungs- 
analysen. Einige Probleme lassen sich an folgender Tab. 3 verdeutlichen (nach 
Hollenbeck 1 9 78 , seine Tab. 6 ) : 



Tabelle 3 : Ubereinstimmung in segmentierten Protokollen 



verschiedene 
Zeiteinhei- 
ten (sec) 


Beobachter 1 
Zeit Ereignis 


Beobachter 2 
Zeit Ereignis 


Beobachter 3 
Zeit Ereignis 


1 


A 




A 


A 


kein 


Wert 


2 


A 


A 


A 




A 


A 


3 


A 




B 




A 




4 


B 




B 




B 




5 


B 


B 


B 


B 


B 


B 


6 


B 




B 




B 




1 


A 


A 


A 


A 


C 




8 


A 




C 




C 


C 


9 


C 


C 


C 


C 


C 




10 


C 




C 




C 





Das erste Problem, Synchronisation von Protokollen (protocol alignment), 
zeigt sich beim Vergleich des dritten mit den iibrigen Beobachtern; er hat den 
Start verpaBt. Wie laBt sich sein Protokoll mit den Iibrigen synchronisieren? 
Und es konnen auch Ausfalle wahrend der laufenden Beobachtung eintreten. 
Das zweite Problem besteht in der Bestimmung der Fehlerart: Beobachter 3 
registrierte in Sek. 7 Verhaltensweise A nicht. Wenn dies sein Fehler war: Hat 
er das kurze Auftreten ubersehen (error of omission, Fehler des Ubersehens) 
oder hat er A mit C verwechselt (error of comission, Verwechslungs-Fehler)? 
Ein drittes Problem ergibt sich aus dem Vergleich der Zeit- und der Ereignis- 
notierung fur die ersten beiden Beobachter: Die Ereignissequenzen beider 
Protokolle stimmen vollig uberein, die Verhaltensweisen in sec. 3 und 8 nicht. 
Welche Art Fehler sind diese; und wie soil man sie fur die Reliabilitatsbestim- 
mung berlicksichtigen ? Hollenbeck diskutiert Losungen fiir jedes Problem, 
von denen auch nach seiner Meinung keine zufriedenstellend ist. Der For- 
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scher, der diesen Erhebungsplan benutzt, sollte zumindest berichten, ob diese 
Schwierigkeiten in seinen Daten aufgetreten sind und wie er sie gelost hat (s. 
auch Kaye 1980). 



5.5 Die Beriicksichtigung von Reliabilitatskenntnissen bei der 
weiteren Datenauswertung 

Es diirfte selten sein, dafi Beobaehtungen nicht weiter ausgewertet werden, 
nachdem sich herausstellt, da8 sie ein (vorher festgesetztes) Minimum an Re- 
liabilitat nicht aufweisen. Man wird auch nicht allgemein, sondern hochstens 
im einzelnen Fall festlegen konnen, wie hoch das erforderliche Minimum an- 
zusetzen ware. Eine realistische Strategie im Umgang mit Reliabilitatsinforma- 
tion zeigt sich in den Veroffentlichungen der letzten Jahrzehnte: Die Frage 
lautet, wie durch MeBfehler und Unzuverliissigkeit der Daten der SchluB - 
z.B. iiber die Richtung einer Mittelwertsdifferenz, ihre Signifikanz oder die 
Hohe einer Korrelation - verfalscht werden konnte, den man aus den Beob- 
achtungen ziehen mochte. Im folgenden konnen wir nur einige Beispiele er- 
wahnen, die untereinander zwar verschieden sind. aber die Thematik nicht 
vollstandig abdecken. 

Unreliable Kategorien und Beobachter flihren zu falschen Klassifikationen. 
Keys & Kihlberg (1963, hier nach Fleiss, 1973 S. 135ff.) behandeln die Frage, 
wie groB der Fehler ist und in welche Richtung er die Analyse verfalscht: 
Gegeben seien ein Merkmal, das relativ eindeutig feststellbar ist, z.B. Lungen- 
krebs, und ein anderes, das weniger sicher zu klassifizieren ist, beispielsweise 
Haufigkeit des Rauchens. P L sei die Proportion von Lungenkrebspatienten, 
die haufig rauchten, somit ist 1-P L die Proportion der Patienten, die nicht 
rauchten. E L sei die Proportion der Patienten, die zwar rauchten, aber falsch- 
lich als Nichtraucher klassifiziert wurden, und F L die Proportion der Patien- 
ten, die falschlich als Raucher eingestuft wurden. Statt wie gewiinscht P L 
bestimmen zu konnen, ist nur p L , die beobachtete Proportion der rauchenden 
Patienten, aus den Angaben der Personen oder Beobachter zu erhalten. Dabei 
ist 

Pl = (1 — E l )P l + F l (1 — P l ). 

Also setzt sich p L additiv aus zwei Teilen zusammen, aus wahren Rauchern 
und wahren Nichtrauchern. Ob p L = .>. <P L hangt von den beiden Fehlerra- 
ten F L und E L ab: 

„ Pl 

p L > P L wenn > P L , 

El + F l 
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= Pl , 

<Pl - 

Nicht nur die Schatzung der wahren Proportion wird verstandlicherweise 
durch Unreliabilitat beeintrachtigt, sondern auch der Vergleich zwischen zwei 
Proportioned Ein Forscher mochte priifen, ob die Proportion der rauchenden 
Lungenkrebspatienten P B < P L ist, und bestimmt die Differenz D zwischen 
den wahren Proportionen: 

D = P L - P B 

Beobachtet ist jedoch 

d = D + (F l - F b ) + P b (E b + F b ) - P l (E l + F l ), 
und d kann groBer, gleich oder kleiner D sein. Wenn 
E l = E b = E und F l = F b = F, 
ist d = D(1 - (E + F)). 

Hieraus ergibt sich: (1) Die beobachtete Differenz kann nicht gleich der wah- 
ren Differenz sein, wenn auch nur eine Fehlerrate ungleich Null ist. (2) Wenn 
beide Fehlerraten unter 50% liegen, hat d die gleiche Richtung wie D, ist 
jedoch numerisch kleiner. Dies ist der seit Bross (1954) bekannte Minderungs- 
effekt. der jedoch - wie die eben skizzierte Analyse ergab - keineswegs 
immer auftritt. (3) Die Annahme ist falsch, Unreliabilitat konne lediglich Un- 
terschiede mindern; sie kann auch die Richtung eines Zusammenhanges fal- 
schen (weitere Literatur zur Auswirkung von Fehlklassifikationen auf Zusarn- 
menhangsmaBe und chi 2 : Rogot, 1961; Mote & Anderson, 1965, Assakul & 
Procter, 1967; Koch, 1969). Fleiss (1973) b ehandeltausfiihrlich und mit zahl- 
reichen Literaturverweisen die Frage, wie der MeBfehler statistisch kontrolliert 
und wie Korrekturfaktoren bestimmt werden konnen. 

Ein weiterer Forschungsschwerpunkt in diesem Bereich befaBt sich mit der 
Frage, wie Unreliabilitat den Typ 11 oder B-Fehler oder die Priifstarke (I-B, 
power, s. Cohen, 1969; Bredenkamp, 1972) eines Inferenztests beeinfluBt. 
Nicewander & Price (1978) haben kiirzlich den Stand der Diskussion zusam- 
mengefaBt. Die Annahmen iiber den MeBfehler sind dabei in der Regel die der 
klassischen Testtheorie, die iiber den Stichprobenfehler jene des allgemeinen 
linearen Modells, speziell der Varianzanalyse. Der Fehlerterm der Varianzana- 



Pl = Pl wenn 
p L < P L wenn 



e l + f l 

Fl 

e l + f l 
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lyse besteht dann aus der Abweichung des wahren Wertes vom Bedingungs- 
mittelwert plus dem MeBfehler. Andert man die Reliabilitat der abhangigen 
Variablen, so kommt es filr die Auswirkung auf die Priifstarke darauf an, ob 
dadurch die Varianz der wahren Werte, der Fehler, oder beide geandert wur- 
den. Nimmt man wie Sutcliffe (1958) und Cleary & Linn (1969) an, nur die 
Varianz der Fehler werde verringert, dann muB die Priifstarke ansteigen. Sut- 
cliffe (1980) zeigt erneut den nachteiligen Effekt der Unreliabilitat von Diffe- 
renzen und der abhangigen Variablen filr die power einer statistischen Prii- 
fung. 

AbschlieBend seien noch einige weitere Beispiele aufgezahlt: Werts & Linn 
(1971) zeigen, wie man die Unreliabilitat einer Kovariaten in einer Kovarianz- 
analyse beriicksichtigen kann. Rock et al. (1977) behandeln den Fall des linea- 
ren Modells, wenn (auch) die unabhangigen Variablen fehlerbehaftet sind. 
Stroud (1974) diskutiert Moglichkeiten des Posttest-Vergleichs bei zwei Grup- 
pen, wenn fehlerbehaftete Pretest-Werte vorhanden sind, und Alternativen 
zur iiblichen Kovarianzanalyse. Nur bei Unreliabilitat konnen Regressionsar- 
tefakte auftauchen, die Hunter & Cohen (1974) bei der Analyse nichtlinearer 
Modelle der Einstellungsanderung beriicksichtigen. Huber (1973) hat die Be- 
deutung der testspezifischen Fehlervarianz fiir die zufallskritische Einzelfall- 
diagnostik herausgearbeitet. In der Entscheidungsforschung hat Fischer (1976) 
zwei verschiedene Fehlertheorien, eine fiir rating, die andere fiir Paarverglei- 
che inhaltlich begriindet und in ihren Auswirkungen auf die Priifung des mul- 
tidimensionalen Nutzenmodells analysiert. Cochran (1968) gibt eine gute Ein- 
fiihrung in den gesamten Bereich. 

6. V al iditat von Beobachtungen 

Man kann zur Beobachtung Apparate verwenden und ihre Daten statistisch 
analysieren, ohne daB ein Mensch dazwischentritt; ein Beobachter hat also 
keinen EinfluB auf die Daten. Dann konnten die Beobachtungen vollig objek- 
tiv und reliabel sein; das Validitatsproblem stellt sich dennoch, denn aus den 
Beobachtungen werden Schliisse gezogen. Diese Schliisse konnen sich von 
einer Menge von Beobachtungen auf eine andere Menge beziehen oder auf 
theoretische Vorstellungen, und als Vorhersagen oder Korrespondenzaussagen 
formuliert sein. Solche Schliisse konnen fiir jeweils bestimmte Beobachtungen 
und bestimmte theoretische Vorstellungen giiltig sein. Validitat - oder syn- 
onym Giiltigkeit - bezieht sich zunachst auf SchluBfolgerungen: Beobach- 
tungen oder bestimmte Verfahren, Beobachtungen zu gewinnen, kann man 
dann als valide bezeichnen, wenn die auf ihnen basierenden Schliisse zutreffen. 
Die Methodenlehre der Validierung, d.h. der Priifung von Validitat, befaBt 
sich mit der Frage nach den Kriterien (und ihrer Anwendung) der Priifung, ob 
diese Schliisse zutreffen. Hierzu wurden verschiedene Kriterien und Verfah- 
rensweisen entwickelt, die in den folgenden Abschnitten geschildert werden. 
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Wenn Beobachtungen von menschlichen Beobachtern stammen, kommen 
nicht nur Tauschung, Selbsttauschung und systematisch verfalschende Beob- 
achtungstendenzen als problematisch fur die Giiltigkeit hinzu. Vielmehr wird 
man menschlichen Beobachtungen, laBt man die Moglichkeit von Tauschun- 
gen und Falschungen einmal beiseite, im Prinzip auch Giiltigkeit zusprechen 
miissen, ohne daB sich die Giiltigkeit auf einen logischen SchluB bezieht. Der 
Autofahrer - nm bei Alltagsbeobachtungen zu bleiben - sieht, daB die Am- 
pel rot ist, der Vordermann doch noch durchfahrt, schlagt mit der Hand an 
seine Stirn und argert sich. Die Beobachtungen und Schilderungen des eigenen 
und fremden Verhaltens und des eigenen Erlebens kann man als valide be- 
zeichnen in dem Sinn, daB sie sich auf die unmittelbare Anschauung des Beob- 
achters beziehen. Diese Basis, die jede menschliche Beobachtung konstituiert, 
wird im folgenden nicht weiter besprochen. Zwar kann eine Methodenlehre 
Bedingungen und Priifmoglichkeiten angeben, wann und wie Fremd- und 
Selbstbeschreibungen verfalscht werden; sie muB die grundsatzliche Moglich- 
keit giiltiger Beobachtungen durch Menschen jedoch voraussetzen. Validitats- 
theorie befaBt sich also nicht mit den philosophischen Bedingungen der Mog- 
lichkeit von - zutreffenden - Beobachtungen durch Menschen und der nahe- 
ren Bestimmung des Wortes ,,zutreffend“, und auch nicht mit der Fiille phy- 
siologischer, psychologischer, sozialer und anderer Faktoren, die verzerrend 
und storend auf die Prozesse der Wahrnehmung und des Beurteilens einwirken 
konnen. Validitatstheorie innerhalb der Methodenlehre befaBt sich mit der 
Prtifung der Giiltigkeit von Schliissen aus Beobachtungen. 

Die Priifung, ob Schliisse von Beobachtungen auf Konstrukte und auf andere 
Beobachtungen zutreffen, kann nach verschiedenen Kriterien geschehen. Die- 
se Kriterien fiihren zur Unterscheidung verschiedener Validitatsarten. Ubli- 
cherweise werden folgende Validitatsarten unterschieden: Kriteriumsvaliditat 
mit den Varianten pradiktive und gleichzeitige (concurrent) Kriteriumsvalidi- 
tat, Inhalts- oder Kontentvaliditat und Konstruktvaliditat (vgl. Davis, 1974). 
Bei Kriteriumsvaliditat interessiert der SchluB vom gerade beobachteten Ver- 
halten auf anderes Verhalten, das gleichzeitig oder zeitlich spater gezeigt wird, 
sei es nun gleichartiges oder verschiedenes Verhalten. Zweck ist die Vorhersa- 
ge (im statistischen Sinn) einer Menge von Beobachtungen aufgrund einer 
anderen Beobachtungsmenge. 

Die Inhaltsvaliditat bezieht sich auf einen ReprasentationsschluB, der von 
einer Stichprobe von Beobachtungen auf ein definiertes Universum gerichtet 
ist (zur Vertiefung und fur weitere Literatur s. Klauer, 1978). Wegen ihrer 
besonderen theoretischen Wichtigkeit widmen wir der Konstruktvaliditat ei- 
gene Abschnitte. 
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6.1 Konstruktvalidierung 

Fur zahlreiche Variablen, die durch Beobachtung erfafit werden sollen, laBt 
sich inhaltliche oder kriterienbezogene Validitat jedoch (noch) nicht nachwei- 
sen, weil man nicht liber ein plausibles Kriterium verfiigt oder man das Uni- 
versum der Verhaltensweisen, Situationen. Aufgaben o.a. nicht erschopfend 
und nach theoretisch fundierten Taxonomien beschreiben kann. Fiir solche 
Falle wird der langwierige ProzeB der Konstruktvalidierung erforderlich, des- 
sen Grundgedanken erstmals umfassend von Cronbach & Meehl (1955) syste- 
matisiert wurden: ,, Construct validation takes place when an investigator be- 
lieves that his instrument reflects a particular construct, to which are attached 
certain meanings. The proposed interpretation generates specific testable hy- 
potheses, which are a means of confirming or disconfirming the claim." Zwi- 
schen verschiedenen theoretischen Konstrukten und zwischen Konstrukten 
und Beobachtungen bestehen Beziehungen, die in der Konstruktvalidierung 
expliziert und - soweit moglich - empirisch gepriift werden. 

Eine Beziehung stellt, formal betrachtet, den Zusammenhang von mindestens 
zwei Variablen dar. Der Zusammenhang kann statistisch auf verschiedene 
Weise analysiert werden, z.B. als Vergleich von Mittelwertdifferenzen bei der 
einen Variablen, wenn die andere die Gruppierung bedingt, als Trendhypothe- 
se. etc. Besondere Bedeutung hat in der Validierungsforschung die Formulie- 
rung des Zusammenhanges als Korrelation oder Kovariation gefunden. Be- 
steht zwischen zwei reliablen MeBwertreihen kein Zusammenhang, so ergibt 
sich kein Problem flir die SchluBfolgerung, auf die sich ein Validitatsurteil 
stiitzen konnte. Besteht jedoch ein signifikanter und substantieller Zusammen- 
hang, so sind mehrere Schlusse moglich. 1. Es besteht ein inhaltlich begriinde- 
ter Zusammenhang zwischen A und B; 2. die experimentelle Manipulation, die 
B variieren sollte, variierte statt dessen A; 3. zwar wurde B experimentell 
variiert oder zeigte ohne Eingriff des Forschers Variation, das Instrument 
jedoch, das A erfassen sollte, registriert in Wirklichkeit B (Tesser & Krauss, 
1976). Wenn A und B beispielsweise Angstlichkeit und Selbstwertgeflihl dar- 
stellen, konnten alle drei Deutungen a priori gleich plausibel sein. Den Fall, 
daB eine dritte Variable A und B beeinfluBt, verfolgen Tesser & Krauss zu- 
nachst nicht weiter. Ihre entscheidende Frage ist dann, unter welchen Bedin- 
gungen man schlieBen kann, der beobachtete Zusammenhang zwischen zwei 
Variablen bedeute etwas anderes als daB beide Indikatoren des gleichen Kon- 
strukts sind. Dafiir stellen sie eine nicht erschopfende Liste von Kriterien auf. 
Ein wichtiges Kriterium besteht darin zu beobachten, ob die Veranderung 
einer dritten GroBe die Beziehung zwischen A und B andert; wenn ja, konnen 
sie nicht (nur) Indikatoren des gleichen Konstruktes sein. Ein weiteres Krite- 
rium priift, ob die Effekte von A auf B und von B auf A asymmetrisch sind, ein 
drittes Kriterium die Konstanz der Beziehung zwischen A und B iiber ver- 
schiedene Erfassungsmethoden. Die Frage, wie ein Zusammenhang zwischen 
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zwei Variablen, die unterschiedliche Konstrukte erfassen sollen, zu deuten ist, 
sollte logisch vor einer Prlifung der konvergenten und diskriminanten Validitat 
geklart werden. 

Die Moglichkeiten der Konstruktvalidierung, sofern diese korrelationsanaly- 
tisch vorgeht, wurden durch den Ansatz der konvergierenden und diskriminie- 
renden Validierung mit Hilfe einer multitrait-multimethod matrix (MTMM) 
von Campbell & Fiske (1959) wesentlich vorangetrieben und systematisiert. 
Der Ansatz geht von folgenden Erwagungen aus: (1) Wenn unabhangige, in 
ihrer Operationalisierung des Konstruktes sich nicht iiberlappende MeBver- 
fahren das Gleiche erfassen sollen und gliltig sind, so mtissen sie, auf die 
gleichen MeBgegebenheiten angewandt, zu gleichen Ergebnissen kommen; die 
Ergebnisse mtissen konvergieren. (2) Beobachtungen und Messungen, die in- 
haltlich verschiedene Konstrukte erfassen sollen, dttrfen nicht hoher korrelie- 
ren als aufgrund der Theorie des jeweiligen Gegenstandsbereiches zu erwarten 
ist, auch dann nicht, wenn sie mit Verfahren gewonnen werden, die technisch 
identische Operationalisierungsschritte aufweisen. Auch von der Erhebungs- 
methodik her gesehen gleiche Verfahren mtissen inhaltlich verschiedene Kon- 
strukte diskriminieren, wenn die Beobachtungen valide sein sollen. (3) Bei 
jeder konkreten Beobachtung oder Messung wild eine ,, trait-method unit", 
eine Einheit von spezifischem Inhalt und bestimmtem, allerdings nicht an 
diesen Inhalt gebundenem MeBvorgehen erfaBt. So liegt nun der Gedanke 
nahe, die systematische Varianz zwischen Beobachtungen aufzuspalten in ei- 
nen Teil zu Lasten der Reaktionen auf unterschiedliche Eigentlimlichkeiten 
verschiedener Erhebungsverfahren und einen Teil zu Lasten der Reaktionen 
auf inhaltliche Unterschiede zwischen den Variablen, die verschiedenen Kon- 
zepten zugeordnet sind. Damit wird es notwendig, bei der Prlifung der kon- 
vergenten und diskriminierenden Validitat sowohl niehr als ein Konstrukt zu 
untersuchen als auch niehr als eine Erhebungsmethode zur Erfassung des glei- 
chen Konstruktes zu benutzen, und wiederholte Messungen an den gleichen 
Vpn sind in der Regel erforderlich. 

Die Aufbereitung der Daten geschieht libersichtlich in einer multitrait-multi- 
method Matrix, in der Korrelationen nach dem in Tab. 4 benutzten Schema 
angeordnet werden konnen. Die in der Hauptdiagonalen stehenden, einge- 
klammerten Werte stellen Reliabilitatskoeffizienten dar. Jeder dieser Koeffi- 
zienten bezieht sich auf eine Methode und ein Konzept (= ,, monotrait-mono- 
method value"). Die sich anschlieBenden Dreiecke mit den durchgezogenen 
Linien - ,, heterotrait-monomethod triangle “ ergeben zusammen mit den zu- 
gehorigen Werten der Reliabilitatsdiagonale einen Einmethodenblock (rnono- 
method block). Zwischen den gestrichelten Dreiecken befinden sich ,,Validi- 
tatsdiagonalen“. darin stellt jeder Koeffizient einen ,, monotrait-lieteromethod” 
Wert dar. Zwei angrenzende, gestrichelte Dreiecke, die mit moglicherweise 
verschiedenen Werten besetzt sein konnen und als ,, heterotrait-heteromethod 
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triangles” bezeichnet werden, bilden zusammen mit der zugehorigen Validi- 
tatsdiagonale einen Mehrmethodenblock. 



Tabelle 4: Fiktive Korrelationen in einer multitrait-multimethod Matrix (nach 
Campbell & Fiske, 1959) 



Konzepte 



Methode I 


Methode II 


Methode III 


A| B, C! 


a 2 b, c 2 


A 3 B, C, 



Methode I 



Methode II 




Methode III A, 

B, 

C, 



56*<.22 .if] 

i '* 

|_n dij-s^s 



67*'„.42 .331 

r% x i 

1 . 4^ .66 '- 34 | 

! 'J 

' 11 3_4___32_'-> J 58 




Damit Konstruktvaliditat als nachgewiesen gelten kann, sollten folgende For- 

derungen erfiillt sein: 

(1) Die Koeffizienten in den Validitatsdiagonalen sollten signifikant von Null 
verschieden und substantiell sein; dies rechtfertigt den SchluB auf konver- 
gierende Validitat. 

(2) Ein Wert in der Validitatsdiagonale sollte groBer sein als die Koeffizienten 
in den Zeilen und Spalten der gleichen heterotrait-heteromethod Dreiecke. 
D.h., die Validitat der Variablen sollte groBer sein als die Korrelation 
dieser Variablen mit irgendeiner anderen Variablen, die mit ihr weder das 
Konzept noch die MeBmethode gemeinsam hat (im Beispiel: A t A 2 = .57 
sollte groBer sein als A t B 2 = .22, A t C 2 = .11, A 1 B 3 = .23, A!C 3 = .11 
sowie A 2 Bj = .22, A^ = .09, A 2 B 3 = .43, A 2 C 3 = .34). 

(3) Eine Variable sollte hdher mit einem unabhangigen MeBversuch korrelie- 
ren, der sich auf das gleiche Konzept bezieht, als mit Messungen, die sich 
,,zufallig“ der gleichen Methode bedienen, jedoch zur Erfassung eines an- 
deren MeBobjektes durchgeftihrt werden. Verglichen werden also Koeffi- 
zienten in der Validitatsdiagonale mit den Korrelationen in den zugehori- 
gen heterotrait-monomethod Dreiecken (z.B. einerseits A t A 2 = .57, ande- 
rerseits A|B = .51; einerseits A t A 3 = .56, andererseits A ( C | = .38. Ftir A, 
ist im Beispiel Kriterium 3 annahernd erfiillt, nicht jedoch z.B. ftir A 2 ). 
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(4) Das gleiche Muster der korrelativen Beziehungen zwischen den MeBobjek- 
ten sollte sich in den heterotrait-Dreiecken sowohl der monomethod als 
auch der heteromethod Blocke zeigen; die Beziehungen zwischen den Va- 
riablen sollten methoden-invariant sein (dies ist im Beispiel der Fall, trotz 
deutlicher Unterschiede in der absoluten Starke der Korrelationen). Die 
Kriterien (2) bis (4) gestatten den SchluB auf die diskriminierende Validitat. 

Die grundlegende Auffassung der Validitat, die den verschiedenen Ansatzen 
zu ihrer Bestimmung im Vorschlag von Campbell & Fiske in Abhebung zur 
Reliability gemeinsam ist, ist die Ubereinstimmung der Ergebnisse von unab- 
hangigen Mefiprozeduren am gleichen Objekt. Die Beziehung zwischen den 
Konzepten Reliability und Validitat erscheint aus dieser Perspektive liber die 
Ahnlichkeit der MeBverfahren gegeben. Reliability ist die Ubereinstimmung 
zwischen den Ergebnissen zweier Versuche, das gleiche MeBobjekt durch ma- 
ximal ahnliche Verfahren zu erfassen. Validitat driickt sich in der Ubereinstim- 
mung zwischen den Ergebnissen zweier Versuche aus, das gleiche MeBobjekt 
durch maximal verschiedene Methoden zu erfassen. Die Ahnlichkeit von Me- 
thoden kann man als variierend zwischen den Enden ,, maximal" und ,, mini- 
mal" eines Kontinuums auffassen; je starker wir uns dent Pol maximale Ahn- 
lichkeit nahern, desto starker muB die Information als auf Reliability bezogen 
interpretiert werden. In diesem Sinne deuten Campbell & Fiske den Split-half 
Koeffizienten als in starkerem MaBe validitatsrelevant als ein Test-Retest-Ko- 
effizient, da einzelne Items nicht vollig identisch sein konnen. 

Es liegt nahe, Zeilen und Spalten der multitrait-multimethod Matrix inhaltlich 
anders als Campbell & Fiske zu definieren, wenn dies durch die Problemstel- 
lung erforderlich wird. In einer Untersuchung inhaltlich unterschiedlicher Er- 
lebensdimensionen in einem intraindividuellen Konflikt verwendete Feger 
(1971; 1978, Kap. 2) fur jedes der drei Konzepte drei verschieden formulierte 
Schatzskalen, insgesamt also neun Skalen. Der Versuchsplan entspricht somit 
einem design mit nested effects: 

Konzept A B C 

Skala 1, 2, 3 4, 5, 6 7, 8, 9 

Centra (1971) setzt an die Stelle unabhangiger Methoden diskrete soziale 
Gruppen; verschiedene Konzepte werden realisiert als Skalen, die Gruppenre- 
aktionen auf verschiedene Aspekte eines multidimensionalen Wahrnehmungs- 
raunies erfassen sollen. Ziel ist somit eine Einschatzung der Ubereinstimmung 
der Gruppen; je ahnlicher die Urteile bei inhaltlich gleichen Skalen, desto 
hbher die Validitat, wobei der Gedanke im Hintergrund steht: ,,Wenn . . . 
diskrete Gruppen in gleicher Weise auf Skalen reagieren, die ihre Umwelt 
erfassen sollen, dann wird die Annahme einleuchtender, daB die Skalen Cha- 
rakteristika oder Bedingungen dieser Umwelt wiedergeben." 
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Krause (1972) hat die logischen Implikationen der konvergierenden und dis- 
kriminierenden Validierung untersucht. Er betont, dafi andere Griinde als die 
Erfassung des gleichen Merkmals zur Konvergenz verschiedener Methoden 
fiihren konnen, und zeigt, dafi sehr spezifische Bedingungen erfullt sein miis- 
sen, damit nach den Kriterien von Campbell & Fiske auf Validitat geschlossen 
werden kann. Er ftihrt u.a. aus, die MeBverfahren mtiBten dafiir bereits ein 
MindestmaB an a priori-Validitat besitzen, laBt aber unklar, was mit a priori- 
Validitat gemeint ist und wie man nun ihr Vorliegen priifen kann. 



6.2 Neuere Entwicklungen zur Analyse von 
multitrait-multimethod Matrizen 

Die Kritik, die an Campbell & Fiskes Ansatz gettbt wurde, betont, die Ent- 
scheidung, ob die vier Kriterien oder auch jedes einzeln erfullt sei, lieBe sich im 
konkreten Fall nicht eindeutig treffen, weil die Kriterien nur vage verbal und 
nicht formal, exakt priifbar definiert seien. Diese Kritik greifen Hubert & 
Baker (1978) auf und definieren die nur leicht modifizierten Kriterien formal, 
und zwar so, daB man inferenzstatistisch priifen kann, ob sie erfullt sind. Die 
gewahlte Inferenzstatistik ist nonparametrisch, und man kann sie auch auf 
Korrelationskoeffizienten anwenden, die lediglich Ordinalskalenniveau in den 
Daten voraussetzen, wie etwa x oder '/> sofern man x oder y selbst Intervallska- 
lenniveau zuerkennt. Die spater zu beschreibenden Weiterentwicklungen set- 
zen durchweg Intervallskalenniveau der Daten voraus und gehen von Produkt- 
Moment-Korrelationskoeffizienten aus. Wie schwerwiegende Folgen Versto- 
6e gegen diese impliziten Annahmen haben, ist nicht bekannt. 

Mit anderen Argumenten hat Krause (1972, p. 183) infrage gestellt, ob Pro- 
dukt-Moment-Korrelationen die geeigneten Koeffizienten seien, um Konver- 
genz und Diskriminanz von Verfahren festzustellen: , .Whether or not two 
methods can be valid for the same trait is a question of codimensionality rather 
than (linear) prediction, and differentes between methods in measurement 
distributions over the same n subjects can yield low correlations even when the 
pair of measurement sets is perfectly ordinally consistent, i.e., shows perfect 
Scalogram reproducibility, which is the necessary topological condition for 
codimensionality.“ 

Hubert & Baker definieren vier Indizes: (1) den Durchschnitt der Korrelatio- 
nen zwischen den gleichen Merkmalen, (2) die Differenz zwischen dem ersten 
Index und dem Durchschnitt der Korrelationen zwischen verschiedenen 
Merkmalen, gemessen mit verschiedenen Methoden, (3) die Differenz zwi- 
schen dem ersten Index und dem Durchschnitt der Korrelationen zwischen 
gleichen Methoden, und (4) einen Index, der anzeigt, wie gleichartig das Kor- 
relationsmuster der Merkmale liber verschiedene Methoden hinweg ist. Um 
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die Bedeutung der numerischen Werte fur die verschiedenen Indizes zu beur- 
teilen, entwickeln Hubert & Baker eine Stichprobentheorie fur die Zufallsver- 
teilung der Indizes. Die allgemeine Nullhypothese besagt, daB die Korrelatio- 
nen nicht die Struktur aufweisen, die einen SchluB auf konvergente und diskri- 
minante Validitat rechtfertigen konnte, daB die Zuordnung eines MeBverfah- 
rens zu einer bestimmten Kombination von Methode und Merkmal eine zufal- 
lige ist. Die Indizes werden dann gegen die Zufallsverteilung auf einem vom 
Forscher gewahlten Konfidenzniveau verglichen, und es lassen sich objektive 
Entscheidungen daruber fallen, welche Kriterien erfullt sind. 

Die erste kritische Weiterentwicklung des MTMM- Ansatzes stammt von 
Campbell & O'Connell (1967). Sie untersuchen die Frage, wie die Varianz- 
quellen zusammenwirken, um die Hohe einer Korrelation in einer MTMM zu 
bestimmen. Die beiden angenommenen Varianzquellen sind (1) der Zusam- 
menhang zwischen den Merkmalen und (2) der Zusammenhang zwischen den 
MeBmethoden. Filr die untersuchten Datensatze muBte die Annahme eines 
additiven Zusammenwirkens der Varianzquellen zugunsten eines multiplikati- 
ven aufgegeben werden: Je hoher eine heterotrait-heteromethod Korrelation 
ausfallt, desto starker steigt sie dadurch an, daB die gleichen Variablen mit der 
gleichen Erhebungsmethode erfaBt werden. Als Konsequenz ergibt sich die 
Forderung, spezifische faktoranalytische Modelle zu prtifen, die nicht von 
einem additiven Zusammenwirken von Methoden- und Merkmalsfaktoren 
ausgehen. 

Jackson (1969) kann als der eigentliche Begriinder des faktoranalytischen Aus- 
wertungsansatzes von MTMM-Daten angesehen werden. Um das Vorgehen 
von Campbell & Fiske zu verbessern, geht er von folgenden Uberlegungen 
aus: (1) Korrelationen sind in ihrer Hohe auch abhangig von Stichproben- und 
MeBfehler, was zum Fehlurteil ftthren kann, diskriminante Validitat liege nicht 
vor. Daher sollte ein ideales Auswertungsverfahren diese Fehlerquellen, die 
Unreliabilitat der Variablen und Korrelationen beriicksichtigen. (2) Die Repli- 
zierbarkeit von Ergebnissen aus Validitatsstudien laBt sich vergroBern und 
Effekte von Stichprobenfehlern lassen sich mindern, wenn nicht einzelne Kor- 
relationen, sondern das gesamte Korrelationsmuster der MTMM der Analyse 
zugrundegelegt wird. (3) Man kann nicht, wie Campbell & Fiske, generell 
davon ausgehen, daB heteromethod-Validitatskoeffizienten hoher ausfallen als 
monomethod-heterotrait-Korrelationen. Das Analyseverfahren sollte die Be- 
ziehung zwischen Methodenvarianz und Merkmalsvarianz spezifizieren. (4) 
Zu welchen Schliissen man liber die konvergente und diskriminante Validitat 
von Beobachtungen kommt, hangt von der Anzahl und relativen Ahnlichkeit 
der untersuchten Merkmale und Methoden ab. Wie Reliabilitatsaussagen auf 
den jeweiligen Erhebungsplan und die verwendete Stichprobe relativiert wer- 
den miissen, so sind Aussagen zur Konstruktvaliditat daruber hinaus zu bezie- 
hen auf die mituntersuchten Merkmale und Methoden. 
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Jacksons eigenes Vorgehen, ,, multimethod factor analysis" berlicksichtigt nur 
Korrelationen zwischen Merkmalen, die mit verschiedenen Methoden erfaBt 
wurden, und gestattet nicht, Methodenfaktoren zu identifizieren. AuBerdem 
konnen bei dieser Methode mathematisch-statistische Probleme auftreten (s. 
Schmitt et al. 1977, Conger, 1 97 1 ). Jackson (1975) hat deshalb seinen Ansatz 
neu formuliert, wobei er an die Hauptkomponentenanalyse von Golding & 
Seidman (1974) anknlipfte. Die verschiedenen Verfahren werden von Schmitt 
et al. (1977) verglichen; auf den Ansatz von Boruch & Wolins (1970), der 
neben einem hypothetischen allgemeinen Faktor je einen pro Merkmal und 
pro Methode vorsieht, sei lediglich verwiesen. Hoffman & Tucker (1964), 
spater z.B. auch Schmitt et al. (1977) haben Tuckers (1966) dreimodale Fak- 
toranalyse zur Validitatspriifung angewendet. Abgesehen von technischen und 
interpretativen Problemen, welche dieser Ansatz bietet, betont Jackson (1969. 
S. 35), diese Methode versuche, eine gemeinsame Faktorenstruktur der Merk- 
male zu identifizieren, die in mehr als einer MeBmethode wiederkehrt, und das 
Zeil sei nicht, fur ein einzelnes Erhebungsverfahren oder ein bestimmtes 
Merkmal konvergierende und diskriminierende Validitat zu untersuchen. 

Das pfadanalytische Vorgeben bei Validierungsstudien haben meines Wissen 
Werts & Linn (1970) in die Psychologie eingeftihrt. Als Anwendungsbeispiele 
seien die Arbeiten von Kalleberg & Kluegel (1975), Ray & Heeler (1975) sowie 
Schmitt (1978) erwahnt. Die Pfadanalyse (zur Einfuhrung: Heise, 1975) stellt 
ein System dar, mit dessen Hilfe Korrelationen in bezug auf ein vorgegebenes 
theoretisches Modell der Beziehungen zwischen den untersuchten Variablen 
interpretiert werden konnen. Campbell & Fiskes Kriterien werden im pfad- 
analytischen Modell im allgemeinen als die Hypothese interpretiert, jede Be- 
obachtung fill' eine MTMM komrne als Wirkung einer latenten Methodenva- 
riablen und einer latenten Merkmalsvariablen zustande, plus einer Fehlerkom- 
ponenten. Methoden und Merkmale werden also als latente, nicht direkt ge- 
messene, sondern aus verschiedenen Beobachtungen erschlossene Variablen 
aufgefaBt, wobei (zunachst) pro Methode und pro Merkmal eine spezifische 
latente Variable oder Faktor veranschlagt wird, weshalb dieses Vorgehen auch 
als „konfirmatorische Faktoranalyse" bezeichnet wird. Das pfadanalytische 
Modell muB weiter die Beziehung zwischen Beobachtungen, Methoden- und 
Merkmalsfaktoren spezifizieren, z.B. festlegen, ob Methodenfaktoren als un- 
abhangig von Merkmalsfaktoren gedacht werden, wie Campbell & Fiske an- 
nehmen. Die Auswertung geschieht oft mit Verfahren, die durch Joreskog 
entwickelt wurden (Joreskog 1969, 1970; Joreskog & Sorbom, 1978). Ob 
Modell und Daten ubereinstimmen, laBt sich inferenzstatistisch priifen, auch 
verschiedene Modelle filr die gleichen Beobachtungen lassen sich so verglei- 
chen. Eine wichtige Validitatsfrage, ob bestimmte Methoden verschiedene 
Merkmale unterschiedlich verzerren, laBt sich flir alle Methoden und Merkma- 
le beantworten. Schmitt et al. (1977, S. 460) nennen folgende Vorteile einer 
pfadanalytischen Validierungsstudie: (1) sie zwingt zu einer exakten Formulie- 
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rung der Annahmen und deren logische Konsequenzen, (2) sie erlaubt, die 
Korrelationen zwischen Merkmalen, zwischen Methoden sowie zwischen 
Merkmalen und Methoden zu schatzen, (3) sie gestattet fur jede Beobachtung 
die Einwirkung der Methoden- und Merkmalsfaktoren sowie der spezifischen 
Varianz abzuschatzen (Weiterentwicklung bei Bien 1980). 

Man kann, wie Costner, ausdrlicklich betonen, daB Beobachtungen nur den 
Charakter und die Funktion von Indikatoren ftir erschlossene, latente Varia- 
blen haben und explizit eine ,,Hilfstheorie“ (Costner, 1969) formulieren, deren 
Aufgabe es ist, die Beziehungen zwischen empirischen Indikatoren und Kon- 
strukten zu beschreiben, und so die Grundlage fur Urteile uber die Gttte der 
einzelnen Indikatoren bereitszustellen. Wichtig ist dabei auch, daB die inhaltli- 
che Theorie nicht als an die empirische Prufung durch nur eine spezielle Aus- 
wahl von Beobachtungen gebunden erscheint. Vielmehr sind im allgemeinen 
mehrere Hilfstheorien filr eine inhaltliche Theorie moglich. Ftir Validitatsstu- 
dien haben Althauser & Heberlein (1970) sowie Costner & Schoenberg (1973) 
diese Zugangsweise vorgeschlagen, die sich mit konfirmatorischen Faktorana- 
lysen verbinden laBt. 

Insbesondere richtet sich in diesem Ansatz die Aufmerksamkeit auf die Frage, 
ob MeBfehler beim Erfassen des einen Konstrukts (oder verbunden mit einem 
bestimmten Indikator) mit MeBfehlern bei anderen Konstrukten oder Indika- 
toren korrelieren, ob also ,, differential bias“, „systematic measurement error" 
oder , .correlated measurement error" vorliegt (Avison, 1978). Campbell & 
Fiske schlieBen auf konvergente Validitat, wenn die monotrait-heteromethod 
Korrelationen hoch sind. Aus der Sicht der Indikator-Analyse impliziert diese 
Annahme zwei weitere: (1) die ..epistemischen Koeffizienten", die den Zusam- 
menhang_ zwischen Indikator und Konstrukt beschreiben, sind substantiell 
hoch, (2) die Erhebungsmethoden sind unkorreliert. Ohne die zweite Annah- 
me konnten hohe monotrait-heteromethod Korrelationen auf Zusammenhan- 
ge zwischen den Methoden zuruckzufuhren sein. Auf weitere. oft unrealisti- 
sche Annahmen. die Campbell & Fiskes Kriterien ftir diskriminante Validitat 
zugrunde liegen, machen Althauser & Heberlein, Althauser et al. (1971) sowie 
Avison (S. 438f.)aufmerksam. Althauser & Heberlein entwickeln eine eigene 
Vorgehensweise, die im Vergleich verschiedener Modelle filr eine MTMM 
besteht. Costner & Schoenbergs Verfahren bewahrt den Forscher nicht nur 
vor falschen Schliissen uber den kausalen Zusammenhang von Variablen, der 
in Wirklichkeit auf korrelierten MeBfehlern beruht. Es erlaubt auch eine Dia- 
gnose von Schwachen bestimmter Indikatoren und eine genaue Abschatzung 
sowohl der epistemischen Koeffizienten als auch der ,,wahren“ Zusammen- 
hange zwischen den Konstrukten (s. auch Alwin 1974, Althauser 1974, Feger 
1978 , S. 77f.). 

Die Informationen in den Beobachtungen einer Validitatsstudie lassen sich 
auch varianzanalytisch betrachten, wie dies Stanley (1961) vorgeschlagen hat. 




Tabelle 5: Vergleich von Methoden fur Studien iiber konvergierende und diskriminierende Validitat 
(nach Schmitt et al. 1977, S. 475). 
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Benutzt wird eine dreifaktorielle Varianzanalyse mit den systematischen Va- 
rianzquellen Methoden, Merkmale und Personen bzw. Merkmalstrager (Bei- 
spiele und Erweiterungen: Boruch et al. 1970, Kavanagh et al. 1971). Wie in 
den zuvor geschilderten Ansatzen liegt auch hier das allgemeine lineare Modell 
zugrunde, allerdings wird der MeBfehler nicht thematisiert. Zwar wird eine 
Validitatsaussage liber alle verwendeten Methoden und Merkmale zugleich 
angestrebt, nicht jedoch fur eine beliebige, bestimmte Erhebungsmethode fiir 
ein spezifisches Merkmal. Aus der GroBe der Varianz zulasten der Merkmals- 
trager wird auf konvergierende Validitat geschlossen. Dies ist, wie Schmitt et 
al. (1977) zu Recht betonen. nicht konvergierende Validitat im Sinne von 
Campbell & Fiske, sondern das AusmaB, in deni ein allgemeiner Faktor die 
gesamte MTMM zu erklaren vermag. Insbesondere aus der Varianz zulasten 
der Interaktionen von Personen und Merkmalen sowie zwischen Personen und 
Methoden wird auf die diskriminierende Validitat geschlossen. 

Schmitt et al. (1977) haben verschiedene Methoden verglichen, mit deren Hilfe 
man konvergierende und diskriminierende Validitat beurteilen kann. In ihrer 
Tab. 16 geben sie dazu eine Ubersicht, zugleich die verschiedenen Ziele, die 
man mit einer Validitatsstudie verfolgen kann. Mit JA oder NEIN notieren 
sie, ob sich ein bestimmtes Ziel durch die betrachtete Methode erreichen laBt. 
Wir geben die iibersetzte Tabelle als Tab. 5 wieder. 
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1. Vorbemerkungen zu Thema und Terminologie 

Wenn Erleben und Verhalten die zentralen Begriffe sind, die den Gegenstand 
der Psychologie umschreiben, und wenn vor jeder weiteren Datenanalyse Be- 
obachtungen anzustellen und diese zu beschreiben sind, darf man dann nicht 
eine intensive und traditionsreiche Auseinandersetzung iiber die Beziehungen 
zwischen Beobachten, Beschreiben, Erleben und Verhalten erwarten? Be- 
kanntlich ist der Diskussionsstand sehr unausgeglichen, und wir konnen dort 
keine Systematik berichten, wo der Forschungsstand zu viele unverbundene 
Probleme nur nebeneinander stellt. 

Wir gehen davon aus, dafi sowohl Erleben als auch Verhalten sowohl beobach- 
tet als auch beschrieben werden konnen. Wenn es derjenige selbst ist, der 
erlebt und sich verhalt, der dies beobachtet und beschreibt, so konnen wir von 
Selbstberichten und Selbstbeschreibungen sprechen (self report, self record- 
ing). Geschieht Beobachtung und Beschreibung durch einen oder mehrere 
andere, so konnen wir das als Fremdbeobachtung bezeichnen. Die erste syste- 
matische Schwierigkeit beginnt mit dem Einwand, ihr Erleben konne eine 
Person nur selbst beobachten. Demnach gehbrt zum Thema dieses Kapitels: 

1. Die Beobachtung des eigenen Erlebens, meist, synonym, als Selbstbeobach- 
tung und Erlebnisbeschreibung bezeichnet (wobei unklar bleibt, warurn in der 
Literatur nicht auch durchgangig und synonym von Erlebnisbeobachtung und 
Selbstbeschreibung die Rede ist). Erkenntnis- und wissenschaftstheoretische 
Arbeiten sind in diesem Bereich relativ zahlreich; nur einige konnen wir strei- 
fen. Methodische Arbeiten sind hingegen ausgesprochen selten, sie finden sich 
nicht einmal gehauft zur Blutezeit des ,,lntrospektionismus“. Den Terminus 
Introspektion wollen wir nur dann fur Selbstbeobachtung gebrauchen, wenn 
zugleich entsprechende bewuBtseinstheoretische Positionen (S.U.) mitgemeint 
sind. Andererseits hat auch Skinners Hypothese, die Moglichkeit ,, private 
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events" zu beschreiben, beruhe auf sozialem Lernen, ebenfalls nicht zu einer 
Serie gezielter Experimente gefiihi't, die diesen ProzeB untersucht und die 
Verzahnung innerer Zustande und angebotenem Beschreibungsarsenal genauer 
analysiert hatten. 

2. Die Beobachtung des eigenen Verhaltens (wobei strittig ist. wie berechtigt es 
bei Selbstberichten ist, zwischen Erleben und Verhalten scharf zu trennen). 

3. Die Beobachtung fremden Verhaltens (gegenwartig im therapeutischen 
Kontext oft als Verhaltenseinschatzung akzentuiert und bezeichnet). Fur die 
wissenschaftliche Gemeinschaft liegt stets nur das Produkt, nicht der ProzeB 
der Beobachtung in Form von Beschreibungen i. w. S. des Wortes vor. Empiri- 
sche psychologische Arbeiten iiber den Zusammenhang zwischen Beschreiben 
und Beobachten sind selten; methodische Arbeiten iiber Verhaltensbeobach- 
tung, besonders iiber eher technische Fragen, aber auch iiber die Psychologie 
der Verhaltensbeobachtung, sind in jiingerer Zeit haufiger. Das folgende Kapi- 
tel kann nicht mehr als eine Auswahl der in der Literatur bearbeiteten The- 
menteile ansprechen. 



2. Formen der Erlebnisbeschreibung 

2.1 Selbstbeobachtung und Erlebnisbeschreibung als Methoden 
und Themen der Psychologie 

Die Selbstbeobachtung ist dem Alltagsverstand bekannt, aber nicht immer 
ganz geheuer, noch ist es die Beobachtung, die einer iiber einen anderen 
anstellt. 

Unter dem Titel ,,Von dem Beobachten seiner selbst" schreibt ein einfluGrei- 
cher und fiir das Schicksal der wissenschaftlichen Psychologie maBgeblicher 
Denker zur Zeit der vorletzten Jahrhundertwende: 

,,Das Bemerken (animadvertere) ist noch nicht ein Beobachten (observare) 
seiner selbst. Das letztere ist eine methodische Zusammenstellung der an uns 
selbst gemachten Wahrnehmungen, welche den Stoff zum Tagebuch eines Be- 
obachtens seiner selbst abgibt und leichthin zu Schwarmerei und Wahnsinn 
hinfiihrt." 

Der Autor und die Quelle, Immanuel Kant und seine ..Anthropologie" von 
1800 (1. Aufl. 1798), schlieBen bei aller humanistischen Diktion und patholo- 
gischen Verweisung wohl jede Assoziation mit zeitgenossischer Wiederver- 
wendung der Selbst-Beobachtung und des Tagebuchs als Mittel einer ,,huma- 
nistisch" orientierten klinischen Psychologie zweifelsfrei aus. Wohl aber be- 
legt das wohl unmiGverstandliche Zitat die Tatsache, daB der Selbstbeobach- 




78 



Hubert Feger und Carl F. Graumann 



tung vor aller psychologisch-methodologischen Spezifizierung eine anthropo- 
logische Allgemeinheit zuzusprechen ist. 

Man darf dabei aber nicht ubersehen, dab, von der Beobachtung seiner selbst 
zu reden, nicht unbedingt und nicht einmal in erster Linie identisch ist mit 
dent, was anderswo und seit geraumer Zeit auch bei uns mit ,,Introspektion“ 
bezeichnet wird, von wo ausgehend der ,,Introspektionismus“ die (theoreti- 
sche?) Richtung ist, von der kein Vertreter je existierte, der sich selbst so 
verstanden und benannt hatte. Introspektion, wortlich ,,Innenschau“, meint, 
unter der doppelten Voraussetzung einer cartesischen Dichotomie von Innen- 
und AuBenwelt als ,,kogitativer“ und ,,ausgedehnter“ Substanz und eines ana- 
log (oder parallel?) zum auBeren Auge gedachten inneren Auges, der Blick 
nach innen auf das eigene BewuBtsein, sofern - aber auch nur sofern - 
Bexvufitsein als rein Inneres auffaBbar erscheint (vgl. hierzu Graumann 1966). 
Fassen wir hingegen BewuBtsein im phanomenologischen Sinne intentional, 
d.h. immer als BewuBtsein oder Erleben von etwas Inner- oder AuBerweltli- 
chem, dann ist alles ,,da drauBen“ Wahrgenommene, Vorgestellte, Vermutete, 
Erinnerte etc. zwar als Erlebtes auch prinzipiell erlebnisdeskriptiv konstatier- 
bar, aber nicht ,,introspizierbar“. Die vor allem in der behavioristischen Lite- 
ratur der USA anzutreffende Gleichsetzung von ,,phanomenal“ und ..intro- 
spektiv“ erscheint angesichts etwa der Wahrnehmung ..blauer Berge“ und ahn- 
licher Erlebnisse unvertretbar. 

Nun wttrde jemand. der die ,,blauen Berge“ aus der Feme erlebt hat, nicht nur 
iiberrascht sein, wenn man ihm dieses Erlebnis als ,,Introspektion“ anrechnete; 
er wlirde ebenso lebhaft protestieren, wenn ihm dieser wundervolle Blick in 
die Weite als ,,Selbstbeobachtung“ attestiert wiirde. VergiBt man firr einen 
Augenblick die - wie man sieht - nicht immer klarende Terminologie, dann 
beobachten wir uns doch am ehesten selbst, wenn wir anfangen, iiber uns zu 
stutzen und nachzudenken. Das kann durchaus - in einem ursprunglichen 
Sinne des Wortes Selbstbeobachtung - angesichts des allmorgendlichen Spie- 
gelbildes passieren. Und der Verdacht, daB, relativ und zwar ,,negativ“ zum 
gewohnten Bild. heute Auge, Lippen oder das Ganze anders aussehe, kann zur 
Steigerung der Aufmerksamkeit beirn Hinsehen fiihren, ohne daB nach den 
Spielregeln der Psychoanalyse bereits ,,NarziBmus“ zu diagnostizieren ware. 
Auch dann wtirden wir ohne Bedenken von einer Selbstbeobachtung reden, 
wenn einer, der kritisiert wurde, weil er standig ,,nich' wahr“ sagt, beim Reden 
darauf achtet und dann, solange er darauf achtet, es auch nicht hort, weil nicht 
mehr sagt. Denn Beobachten heiBt ja nur so viel wie ein intensives Achten-auf, 
und Auf-sich-selbst-Achten tut man. wenn dazu AnlaB oder Grund bestehen 
und einem eine entsprechende PaB-auf-Instruktion von einem selbst oder an- 
deren erteilt worden ist. In diesem allgemein verstandlichen und klaren Sinn 
unterscheiden sich alltagliche und wissenschaftliche Selbstbeobachtung nicht; 
nicht einmal die Zweifel an der Tauglichkeit dieses Vorgehens! Denn, ob ich 
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das, was an meinem Verhalten zu beobachten ist, auch tatsachlich beobachte, 
bleibt immer offen, und ich erfahre nie verlaBlich, ob es an der Beobachtungs- 
absicht oder am Ausbleiben des fraglichen Phanomens liegt, wenn ich das 
Erwartete nicht beobachte. 

Jenseits dieser auch der Alltagserfahrung vertrauten Selbstbeobachtung, die, 
habitualisiert, wie schon Kant wuBte, auch ,,krankhaft“ werden kann, liegt das 
Grlibeln, die Reflexion liber sich selbst. Warum habe ich nur dies getan, das 
gelassen? Was in aller Welt hat mich dazu gebracht, getrieben etc.? - Fragen, 
die man sich selbst iiber die Ursachen oder Grtinde des eigenen (aber genauso: 
fremden) Tuns stellt. Diese Form der Retrospektion sollte als eine Form des 
Nachdenkens iiber sich selbst (und die Welt) nicht mit deni gleichen Begriff 
gefaBt werden wie die mehr oder minder unmittelbare Beobachtung eigenen 
Seins oder Tuns. 

Wenn heute gerne unscharf vom ,,verbalen Report 11 (statt von Selbstbeobach- 
tung oder Erlebnisbeschreibung) die Rede ist, geht dieser Unterschied zwi- 
schen dem unmittelbaren Achten-auf und dem u.U. rasonierenden Nachden- 
ken-iiber (mutmaBliche) Zusammenhange verloren; es zahlt nur das ,,verbale“ 
Resultat. Ein ,,verbaler Report 11 als Antwort auf Warum-Fragen (vgl. Nisbett 
& Wilson 1977) kann sehr unterschiedliche Quellen haben; eine davon mag das 
eigene Erleben sein, beziehungsweise die Art und Weise, wie wir iiber unsere 
Erlebnisse, iiber unser Inneres, unsere Innerlichkeit, iiber das ganz Private etc. 
zu reden gelernt haben, sei es gegeniiber nahestehenden Vertrauten, gegeniiber 
Fremden oder auch gegeniiber sich ,,pers6nlich“ gebenden Fremden wie Psy- 
chologen. 

Damit bleibt als letztes und sicher nicht geringstes Problem die von Psycholo- 
gen gerne und bewuBt vollzogene Gleichsetzung von Beobachtung und Be- 
schreibung, hier also von ,, Selbstbeobachtung 11 und , .Erlebnisbeschreibung 11 . 
Zwar lehrt uns die Anwendung der Datentheorie auf die Beobachtungsmetho- 
dik, daB eine Beobachtung, was ihre wissenschaftliche Giite betrifft, nie besser 
sein kann als ihre Kategorisierung. Aber dieser stolze Satz klingt weit weniger 
iiberzeugend, wenn wir kein verliiBliches Verfahren aufweisen konnen, daB die 
Beziehung zwischen deni Phanomen und seiner Kategorisierung zu prazisieren 
gestattet. Falls es diese Beziehung iiberhaupt gibt zwischen ,,Anschauung“ und 
,, Begriff 11 , wird es so viele Methodenklassen geben, wie Modalitaten dieser 
Beziehung denkbar sind. Die Flucht vor diesem Problem, das die Geschichte 
der abendlandischen Philosophie mitgepragt hat, besteht im Riickzug auf die 
Rede, auf den Diskurs: Bescheiden wir uns mit der Art und Weise, wie Leute 
iiber bestimmte Themen reden und analysieren diese Rede ohne Rekurs, sei es 
auf ,,Tatsachen“, sei es auf ,, Erlebnisse 11 . 

Wenn dies einige unterscheidbare Modi der kognitiven Beschaftigung des Indi- 
viduums mit sich selbst sind, dann sollten sie auch Themen einer Wissenschaft 
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darstellen, die das Erleben und Verhalten von Menschen zum Gegenstand hat. 
Tatsachlich reichen seit einiger Zeit, nimmt man nur Personlichkeits- und 
Sozialpsychologie, umfangreiche Forschungsthemen von der Selbstaufmerk- 
samkeit und Selbstwahrnehmung tiber die Selbstattribution und Selbstbeurtei- 
lung bis hin zur Selbstdarstellung im Alltagsleben. Sie alle verdanken ihre 
Existenz deni anthropologischen Sachverhalt der Reflexivitat des menschlichen 
Bewufitseins. Das heiBt, daB der einzelne nicht nur seine Umwelt und Mitwelt. 
sondern auch sich selbst in den verschiedenen Modalitaten der Wahrnehmung, 
Erinnerung, Antizipation, des Empfindens und Fiihlens, des Denkens und 
Urteilens erfahrt (erlebt) und anderen dariiber direkt oder indirekt Aussagen 
machen kann. 

Diese, sagen wir, doppelte Fiihigkeit, sich selbst in verschiedenen Modalitaten 
zu erleben und dariiber hinreichend differenzierende Aussagen zu machen. 
ergibt nicht nur eine ganze Klasse von problemgeladenen Forschungsthemen. 
Sie konstituiert auch die Klasse(n) von wissenschaftlichen Verfahren, die Aus- 
sagen des Menschen iiber sich selbst zum Ausgang nehmen. Diese Verfahren 
konnen sehr unterschiedlichen (wie diagnostischen, klinischen) Zwecken die- 
nen. In diesem Abschnitt werden sie nur insofern behandelt, als sie erlebnis- 
deskriptiv sein bzw. Erlebnisdeskription ermoglichen sollen. 

Dent Hinweis darauf. daB der kognitiv-sprachliche Riickzug auf sich selbst 
bzw. auf das eigene Erleben. der seit Beginn der wissenschaftlichen Psycholo- 
gy als Forschungsmethode diente, inzwischen auch als Forschungsthema voile 
Aufmerksamkeit findet, kann man bereits entnehmen, daB am Kernproblem 
der Erlebnisdeskription, namlich der Beziehung von Erlebnis und Deskrip- 
tion, noch gearbeitet wird. 



2.2 Selbstbeobachtung und Experiment: 

Die Begriindung der wissenschaftlichen Psychologie 

Blickt man auf die Anfange der wissenschaftlichen Psychologie im neunzehn- 
ten Jahrhundert zuriick, so wird erkennbar, daB die Begriindung der Psycho- 
logie als Einzelwissenschaft eine methodologische war. Zumindest fiir Wil- 
helm Wundt gilt, daB er die Uberzeugung, ,,daB die Fortschritte jeder Wissen- 
schaft innig an die Fortschritte der Untersuchungsmethoden gebunden sind“ 
(Wundt 1862, xi), in einer fiir lange Zeit verbindlichen Weise in die Tat umge- 
setzt hat. Worin aber sah Wundt den fiir die Psychologie so dringend notigen 
Fortschritt? Was immer schon, vorwissenschaftlich - und das heiBt vor allem: 
philosophisch - Psychologie treiben ausmachte, war die Selbstwahrnehmung 
oder Selbstbeobachtung. Generationen von Philosophen, aber auch Seelen- 
kundlern, hatten aus der unmittelbaren Erfahrung ihrer eigenen Empfindun- 
gen und Ideen, Affekte und Begierden und der Reflektion dariiber ihre Psy- 
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chologie geschopft. Nur war darliber Psychologie, zumindest im Vergleich zu 
der sich kraftig entwickelnden Naturwissenschaft, nicht zur Wissenschaft ge- 
worden. Gleichwohl, als Wundt dies im Sinne der Begriindung einer Psycho- 
logie als Naturwissenschaft zu andern sich anschickte, blieb auch fur ihn gill- 
tig: ,,Alle Psychologie beginnt mit der Selbstbeobachtung, und diese bleibt zur 
Beurteilung der auBer uns stehenden psychischen Erscheinungen immer ein 
unentbehrliches Hilfsmittel“ (a. a. O., xvi). Allerdings, so fiigt Wundt hinzu, 
ist sie vollig unzureichend ftir die Entwicklungs- und Kausalanalyse der Er- 
scheinungen. 

DaB wir der Selbstbeobachtung geradezu auch bediirfen, um „aufier uns ste- 
hende“ psychische Erscheinungen iiberhaupt verstehen zu konnen, vertrat 
auch - hier, wie so oft. wundtscher als Wundt - noch sechzig Jahre spater 
E.B. Titchener (1914, 32), wenn er behauptet, daB wir ..immer wieder auf die 
experimentelle Selbstbeobachtung zuriickgreifen miissen“, wenn wir den Ver- 
such machten, ..die psychischen Prozesse eines Kindes oder eines Hundes oder 
eines Insekts“ zu verstehen, wie sie sich an auBeren Verhaltensmerkmalen zu 
erkennen geben. ,,Wir konnen uns keine Prozesse in einem anderen BewuBt- 
sein vorstellen, die wir nicht in unserem eigenen finden.“ Fazit: ..Experimental 
introspection ... is the sole gateway to psychology." 

Auch William James, um einen der Wundt- Anhangerschaft unverdachtigen 
Mitbegrtinder der modernen Psychologie zu zitieren, beginnt sein Kapitel 
iiber die Forschungsmethoden der (ausdrlicklich:) Naturwissenschaft Psycho- 
logie mit deni hervorgehobenen Satz: Introspective observation is what we 
have to rely on first and foremost and always “ und fiigt hinzu, das Wort 
Introspektion bedtirfe wohl keiner Definition, es rneine selbstverstandlich 
..looking into our own minds and reporting what we there discover. Every one 
agrees that we there discover states of consciousness “ (James 1890, I, 185). 

DaB wir BewuBtsein irgendwelcher Art haben, nennt James das inconcussum 
in einer Welt, wo alles andere sich als bezweifelbar erwiesen hat. Entsprechend 
wird die Uberzeugung, daB wir BewuBtsein haben, und auch, daB wir unser 
BewuBtsein von deni unterscheiden konnen, was Gegenstand dieses BewuBt- 
seins werden kann, als ,,das grundlegendste aller Postulate der Psychologie" 
bezeichnet (ebda.). 

Wir nehmen zwar die Begrlinder der modernen Psychologie als Ausgangsbei- 
spiele ftir die enge Verkntipfung von Psychologie und Selbstbeobachtung. 
legen aber Wert darauf, daB diese Konzeption, vor allem die von naturwissen- 
schaftlicher Psychologie und Selbstbeobachtungsmethode, keine historische 
Episode geblieben ist. Bevor wir uns den Formen und Problemen der Selbstbe- 
obachtungsmethode bzw. der Erlebnisdeskription zuwenden, die auch die 
Gegenwart beschaftigen, sei noch einer der einfluBreichsten deutschsprachigen 
Psychologen der Nachkriegsjahre bemtiht, der ebenfalls Psychologie als Na- 
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turwissenschaft vertrat, Hubert Rohracher. Fur ihn laBt sich gleichwohl ein 
grundsatzlicher Unterschied zwischen den Forschungsmethoden der Psycho- 
logie und der ubrigen Wissenschaften formulieren: ,,In alien anderen Wissen- 
schaften hat man Dinge oder Vorgange zu untersuehen, die auBerhalb des 
eigenen Erlebens liegen, wahrend man in der Psychologie gezwungen ist, die 
eigenen Erlebnisse zu beschreiben; das Objekt der Psychologie - das bewuBte 
Erleben - findet man nirgendwo anders als in sich selbst.. Die wichtigste 
Methode der Psychologie ist dciher die Selbstbeobachtung“ 1 ) (Rohracher 1963, 
69 f.). 

Allen, denen es um die Begriindung oder Bewahrung der Psychologie als 
Wissenschaft, speziell als Naturwissenschaft zu tun war, ist die Problematik 
der Selbstbeobachtung vertraut gewesen. Sie hatte bereits manchen Denker, so 
vor allem Kant (1786; 1800) und Comte (1830-1842) dazu gebracht, Psycholo- 
gie als Wissenschaft fur unmoglich zu halten - irnrner unterstellt, daB sich 
eine den Namen Psychologie tragende Wissenschaft mit dem Psychischen 
(oder dem BewuBtsein oder dem Erleben) notwendig und letztlich zu beschaf- 
tigen habe. 

Insofern sollte es nicht iiberraschen, bei den Befurwortern der Selbstbeobach- 
tung als grundlegender Methode der Psychologie auch die kritischsten Aussa- 
gen iiber diese Methode zu finden. So hat es Sekundarkenner von Wundt 
immer wieder iiberrascht, neben dem im obigen Zitat zum Ausdruck kom- 
menden Bekenntnis zur Selbstbeobachtung bei Wundt auch Satze zu finden, 
wonach ,, Selbstbeobachtung, wenn wir das Wort Beobachtung im wissen- 
schaftlichen Sinne verstehen, unmoglich ist. Je rnehr wir uns anstrengen, uns 
selber zu beobachten, um so sicherer konnen wir sein, daB wir uberhaupt gar 
nicht beobachten" (Wundt, 1906, 196). 

Was hier widerspriichlich erscheint, erklart sich nicht daraus, daB sich Wundts 
Methodik-Konzept von seiner Heidelberger zu seiner Leipziger Zeit geandert 
hat. Das ist zwar auch der Fall (Graumann 1980), betrifft aber nicht die Selbst- 
beobachtung. Die scheinbar widersprlichlichen Aussagen sind, wie Blumen- 
thal (1975) und Metge (1980) erneut gegen tradierte MiBverstandnisse der 
Wundtschen Methodik demonstrieren, voll vereinbar. Man muB sich nur 
deutlich machen, daB Wundt von Anfang an die reine Selbstbeobachtung flir 
methodisch wertlos, die mit dem experimentellen Verfahren gepaarte Selbstbe- 
obachtung (besser allerdings: Selbstwahrnehmung) jedoch ftir unabdingbar 
ansah. Es war die nicht (hinreichend) kontrollierbare und damit letztlich nicht 
verifizierbare Selbstbeobachtung, die er anfanglich den vorwissenschaftlichen 
Psychologen (Wundt 1862; 1888), spater den Denkpsychologen der Kiilpe- 
Schule (S.U.) zum Vorwurf niachte (Wundt 1907). 



') Bei Rohracher ist nur das letzte Wort hervorgehoben. 
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Um die fur seine Psychologie unverzichtbare Selbstwahrnehmung in eine wis- 
senschaftliche Methode zu transformieren, muB sie der Kontrolle des Experi- 
ments unterworfen werden, wobei unter Experiment, in der Tradition von 
Francis Bacon (1620; 1974), ganz zu Anfang und - wir meinen - doch in 
verbindlicher Weise ein dreifach kontrollierendes Verfahren verstanden wird 
(Wundt 1863, I. Vf.): 

,,Durch das Experiment erzeugen wir die Erscheinung kilnstlich aus den Be- 
dingungen heraus, die wir in der Hand halten. Wir verandern diese Bedingun- 
gen und verandern dadurch in meBbarer Weise auch die Erscheinung. “ 

Da die Veranderung von Bedingungen die Wiederholung konstanter Bedin- 
gungen (und sei es nur fiir Kontrollzwecke), wie Wundt spater selbst sah, zur 
Voraussetzung hat, lafit sich konsequenterweise von einem (durch Manipulier- 
barkeit, Wiederholbarkeit, Variierbarkeit und MeBbarkeit) vierfach kontrol- 
lierenden Verfahren reden. Allerdings hat Wundt, fiir den das Experiment eine 
Form der Beobachtung war, spater das strengere Kriterium der MeBbarkeit 
durch das der (aufmerksamen) Beobachtbarkeit ersetzt (vgl. hierzu Graumann 
1980, 76f.). Fiir die methodische Selbstbeobachtung ergab sich dann der fol- 
gende Regelkanon: 

(1) ,,Der Beobachter muB, wo moglich, in der Lage sein, den Eintritt des zu 
beobachtenden Vorgangs selbst bestimmen zu konnen. 

(2) Der Beobachter muB, soweit moglich, im Zustand gespannter Aufmerk- 
samkeit die Erscheinungen auffassen und in ihrem Verlauf verfolgen. 

(3) Jede Beobachtung muB zum Zweck der Sicherung der Ergebnisse unter den 
gleichen Umstanden mehrmals wiederholt werden konnen. 

(4) Die Bedingungen, unter denen die Erscheinung eintritt, mussen durch 
Variation der begleitenden Umstande ermittelt und ... in den verschiede- 
nen zusammengehorigen Versuchen planmaBig verandert werden, indent 
man sie teils in einzelnen Versuchen ganz ausschaltet, teils in ihrer Starke 
oder Qualitat abstuft“ (Wundt 1907, 308). 

Erscheinen hier die formalen Kriterien des Experiments in der Funktion, wis- 
senschaftliche von unwissenschaftlicher (Selbst-) Beobachtung zu scheiden, so 
gilt, was theoretisch bedeutsam ist, umgekehrt der Einsatz der Selbstbeobach- 
tung als Legitimation des Experiments in der Psychologie. Vergegenwartigt 
man sich die Fragestellungen der ..Physiologischen Psychologie", wurde tat- 
sachlich jedes in dieseni Kontext entworfene Experiment, das auf Selbstbeob- 
achtung verzichtete, zum physiologischen Experiment (vgl. Metge, a.a.O., 
186). 

Es diirfte aus den vier zitierten Regeln, die im einzelnen als Kann-Bestimmun- 
gen galten, erkennbar sein, daB die Einsatzmoglichkeiten wissenschaftlicher 
Selbstbeobachtung begrenzt waren auf relativ einfache, d.h. ,,liberschaubare“, 
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Vorgange, die zum Zwecke der objektiven Kontrolle moglichst auf physische 
Reize bezogen sein sollten, auch wenn reine Erlebnisbeobachtung zulassig 
war, sofern einige der Regeln eingehalten wurden. Das aber heiBt, daB schon 
die Selbstbeobachtungsmethodik der meisten Wundt-Schiiler als nicht mehr 
regelgerecht gait. 



2.3 Die systematische experimentelle Selbstbeobachtung 

2.3.1 Die konkrete Vorgehensweise 

1m Gegensatz zur heute ausgefeilten Methodik etwa der Testkonstruktion 
oder der Versuchsplanung gibt es keine ..Einfiihrung in die Methodik der 
Selbstbeobachtung". Vielmehr scheint es so, als ob die sie anwendenden Psy- 
chologen und ihre Versuchspartner durchweg glauben, man beherrsche Selbst- 
beobachtung natlirlicherweise, als ob es einer Methodenlehre der Selbstbeob- 
achtung nicht bedurfe, allenfalls einer Grenzbestimmung ihrer Moglichkeiten. 
Jedoch erfordert auch eine solche abgrenzende Kritik eine systematische me- 
thodische Auseinandersetzung mit dieser empirischen Vorgehensweise, und so 
haben es auch die Psychologen um die Jahrhundertwende gesehen. Aus ihrem 
konkreten Vorgehen laBt sich ihre implizite Methodenlehre entwickeln und 
dann diskutieren. Wir schildern daher als erstes ihr methodisches Vorgehen, 
wobei wir eine der sorgfaltigsten Anwendungen zugrunde legen, die durch N. 
Ach (1905). 

Ach (S. 8) bestimmt als Ziel der experimentellen Selbstbeobachtung, „ein voll- 
standiges, zuverlassiges und unbefangenes Bild der wirklich vorhandenen Be- 
wuBtseinsinhalte" zu geben. Dieses Ziel erreicht die ,, systematische experi- 
mentelle Selbstbeobachtung", allgemein beschrieben, auf folgendem Weg 
(Ach. 1905. S.8f.): 

„Die Methode der systematischen experimentellen Selbstbeobachtung geht, wie bereits 
bemerkt, darauf aus, das durch auGere experimentelle Hilfsmittel veranlaGte Erlebnis 
der Versuchsperson jedesmal in der dem Versuche unmittelbar folgenden Zeit einer 
vollstandigen Beschreibung und Analyse zu unterwerfen. Hierbei findet ein fortwah- 
render enger Gedankenaustausch zwischen der beobachtenden Versuchsperson und 
dem protokollierenden Versuchsleiter statt. Da jede Versuchsanordnung im allgemei- 
nen durch ein vorbereitendes Signal, welches die notwendige Einstellung der Aufmerk- 
samkeit bezweckt, eingeleitet wird, so lassen sich beim psychologischen Einzelversuch 
drei Zeitabschnitte unterscheiden: 

1) die Vorperiode, welche die Zeit zwischen Signal und Eintritt des Reizes umfaGt, 

2) die Hauptperiode, welche das eigentliche experimentell zu untersuchende Erlebnis in 
sich schlieGt, 

3) die Nachperiode, welche die sich unmittelbar an den AbschluG des Experimentes 
anschlieGende Zeit umfaGt. 
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Der gesamten jeweiligen Versuchsreihe hat aufierdem die Angabe der Instruktion vor- 
auszugehen. Die Instruktion der Versuchsperson hinsichtlich der Selbstbeobachtung 
lautet dahin, die in der Vorperiode und Hauptperiode erlebten Vorgange in der Nach- 
periode eingehend zu schildern. Selbstverstandlich hatte die Versuchsperson auch die 
Pflicht, bemerkenswerte Erlebnisse in den Zwischenpausen zwischen den einzelnen 
Versuchen, so eine stattfindende associative Eintibung u. dergl. dem Versuchsleiter 
anzugeben.“ 

Es wird deutlich, daB Ach hier Selbstbeobachtung als Aufgabe, zeitlich unmit- 
telbar vorausgegangenes Erleben zu beschreiben, auffaBt, so wie Stern (1911, 
S. 38) als Aufgabe der Selbstbeobachtung vorgibt . . die Feststellung eines 
akuten Merkmals (Hervorhebung von Stern), d.h. eines bestimmten, in einem 
gegebenen Augenblick vorhandenen Phanomens oder Aktes in der sich beob- 
achtenden Personlichkeit.“ Davon unterschieden wird Selbstbeurteilung, die 
als Aufgabe des Forschers nach Bedingungen ftir psychische Prozesse und 
Strukturen sucht. 



2.3.2 Mafinahmen zur Sicherung der Ergebnisse 

Der Versuchsleiter hat irn Rahrnen dieses allgemeinen Schemas bestimmte 
MaBnahmen zu ergreifen, die gewahrleisten sollen, daB die Vp ihre Erlebnisse 
vollstandig, zuverlassig und unverfalscht schildert. Dazu gehort als erstes, die 
Nachperiode von den beiden anderen zu trennen, und nur in der Nachperiode 
das Erlebte zu schildern, und diese Sequenz ofters zu wiederholen, damit die 
Beobachtung des Erlebens oder schon die Absicht zu beobachten den Erlebnis- 
ablauf oder seinen Inhalt nicht storen kann. Da dieses Argument bis heute zu 
den zentralen in der Auseinandersetzung um die Selbstbeobachtung gehort, 
geben wir es vollstandig wieder (Ach 1905, S.9): 

„Es fallt hiermit jener Einwand weg, der schon von Kant (Ach verweist auf: Metaphysi- 
sche Anfangsgtiinde der Naturwissenschaft. Vorrede S. XI, 1786) angedeutet und seit- 
dem haufig wiederholt wurde, daB eine direkte Beobachtung der psychologischen Pha- 
nomene wahrend ihres Erlebtwerdens oder die Absicht, wahrend des Vorganges zu 
beobachten, den zu untersuchenden ProzeB unmoglich macht. Denn hier findet wah- 
rend des Erlebnisses ftir gewohnlich keine Beobachtung statt, ebensowenig besteht die 
Absicht, wahrend des Erlebens das zu untersuchende Geschehen zu beobachten. DaB 
die Selbstbeobachtung auf das Erlebnis, solange dasselbe sich nicht ofters wiederholt 
hat, einen storenden EinfluB auslibt. davon konnte ich niich bei meinen Untersuchun- 
gen vielfach uberzeugen.“ 

Um eine verfdlschende Auswahl durch die Vp aus ihrem Erleben zu vermeiden 
und um die Vp in Unwissenheit daruber zu lassen, woran genau der VI interes- 
siert ist, fordert Ach, jedesmal das gesamte Erlebnis so vollstandig wie nur 
moglich zu beobachten und zu berichten, insbesondere nicht nur das gerade 
wichtig erscheinende oder lebhaft hervortretende (S. 14). Da die gewunschte 
Vollstandigkeit ,,bei den iiberaus reichhaltigen psychischen Erlebnissen" sich 
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von keiner Vp erreichen lasse, seien Wiederholungen notig, bei denen man 
nach und nach der Vollstandigkeit naher komme (S. 16f.). 

Drittens fordert Ach eine Kontrolle darilber, ob die von der Vp gewahlte 
,,sprachliche Bezeichnung wirklich den adaquaten Ausdruck des zugehorigen 
geistigen Inhaltes darstellt“. Ach sieht das Problem in erster Linie darin, daB 
der Sprachgebrciuch von Vp und VI nicht ubereinstimmen, weniger darin, daB 
die Sprache grundsatzliche Mangel bei der Abbildung von Erlebten aufweisen 
konnte (s. Linschoten 1959, 1961). Die fehlende Ubereinstimmung laBt sich 
durch Nachfragen klaren und vielleicht beseitigen: ,,Der Versuchsleiter hat 
deshalb die Pflicht, die gegebene Schilderung durch Fragestellungen zu ergan- 
zen.“ (S. 14). Als Beispiele finden wir: 

..Die Fragestellungen bezogen sich auf die zeitliche Aufeinanderfolge, so daB z.B. nach 
der Schilderung der Versuchsperson gefragt wurde: was ging diesem Zustande vorher? 
was war zwischen diesen beiden Vorgangen? schlossen sie sich unmittelbar aneinander? 
standen sie in irgendeiner bewuBten Beziehung? Auch der simultane Inhalt wurde in 
ahnlicher Weise besprochen, z.B. waren die Vorgange gleichzeitig im BewuBtsein? 
welchem war die Aufmerksamkeit zugewendet? wie war der Vorgang im BewuBtsein? 
was fur Merkmale hat dieser Vorgang? waren Gefuhle dabei u.s.w.? 1st der Vorgang 
gleich einem vorhergehenden Vorgang? . .“ (S. 17). 

Viertens, gewissermaBen als zusatzliche Sicherung gegen ..Tauschung 11 , ver- 
wertet Ach fast nur solche Beobachtungen, . . welche bei verschiedenen 
Versuchspersonen ubereinstimmend gefunden wurden“ (S.20). und die inter- 
individuelle Replikation geschieht nicht liber beliebige Vpn, sondern mog- 
lichst an Psychologen, wegen der „Schwierigkeit der Durchfuhrung 11 , und auch 
bei den Psychologen hat ..Schulung und stetige Kontrolle' 1 stattzufinden 
(S.23). Das Thema ,,Ubung in der Selbstbeobachtung 11 ist bis heute nicht 
systematisch empirisch untersucht worden. 

Unabdingbar ist flinftens, daB es sich um Selbstbeobachtung unter experimen- 
ted variierten Bedingungen handelt, und: 

„Die systematische experimentelle Selbstbeobachtung hat jedoch keinen Wert, wenn es 
nicht gelingt, durch Anderung der auBeren Versuchsanordnung und der Instruktion 
auch eine dem jeweiligen Zwecke entsprechende Anderung des inneren Erlebnisses 
herbeizuflihren, und so durch Variierung der auBeren Umstande auch eine Kontrolle 
der in der Selbstbeobachtung gemachten Angaben durchzufiihren. 1 ' 

Der Forscher muB also Annahmen darliber formulieren, wie auBere Bedingun- 
gen und Erleben zusammenhangen, und ihre Bestatigung starkt das Vertrauen 
in die verwendete Methode. Der konsequent weitergehende SchluB, ausblei- 
bende Bestatigungen konnten nicht nur zu einer Revision der Theorie, son- 
dern auch der Methodik flihren, wurde im Detail in der vorbehavioristischen 
Zeit nicht grundlich genug, und mit dem Behaviorismus allzu vehement ge- 
zogen. 
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Es gibt, bei Ach selbst wie bei seinen Zeitgenossen, zahlreiche Varianten der 
Methode, z.B. mit und ohne Fragen des VI, mit und ohne Vorphase, haufig 
ohne experimentelle Variation der situativen Bedingungen usw.; diese Varian- 
ten mttssen jedoch nicht diskutiert werden, wenn die grundsatzliche methodi- 
sche Problematik aufgezeigt werden soil. 



2.3.3 Begriindung der Moglichkeit von Selbstbeobachtung 

Wie jede andere Methode der Datenerhebung bedarf auch die der Selbstbeob- 
achtung des Nachweises, daB die Beobachtungen, die man mit ihrer Hilfe 
gewinnen will, prinzipiell auch gewonnen werden konnen. Das Kriterium fur 
einen solchen Nachweis besteht darin zu zeigen, daB (empirisch gesicherte) 
theoretische Annahmen iiber den zu erfassenden Gegenstandsbereich, hier 
psychische Strukturen und Prozesse des Erlebens, und implizite Vorausset- 
zungen der Methode iiber die Natur dieses Gegenstandsbereiches miteinander 
vereinbar sind. 

Zu den notwendigen psychologischen Annahmen gehort: Die experimented] 
erzeugte Situation fiihrt an der gleichen Person - von gesetzmaBigen oder 
kontrollierbaren Reihenfolgewirkungen einmal abgesehen - zu einem Erleb- 
nis, das auch iiber verschiedene Replikationen soweit identisch ist, daB sich 
seine Behandlung als ,,gleiches Phanomen“ theoretisch rechtfertigen laBt. Fiir 
die Untersuchung von Erlebnissen - etwa im Gegensatz zu offen beobachtba- 
ren Verhaltensweisen - ist diese Forderung deshalb kritisch, weil iiber sein 
Erleben nur der eine Beobachter Auskunft geben kann. Ferner muB man 
annehmen (Ach, S. 10), Selbstbeobachtung beziehe sich auf BewuBtseinsinhal- 
te, welche die Tendenz haben, „im BewuBtsein weiter zu verharren'f Man 
muB also ein Minimum an Gedachtnisleistung voraussetzen, und weiter an- 
nehnien, das Erinnerte sei mit dem Erlebten identisch oder in bekannter Weise 
verschieden, wie Ach (S. 15) formuliert, man niiisse ,,die Identitat des perse- 
verierenden Erlebnisses mit dem wirklich vorhandenen“ voraussetzen. 

SchlieBlich ist als notwendige Voraussetzung zu erwahnen, daB die psychi- 
schen Gegebenheiten ilberhaupt bewuBt und ,,bewuBtseinsfahig“ sind. Die 
friihen Anwender der Introspektion gehen keinesfalls davon aus, alles Psychi- 
sche sei bewuBt oder konne bewuBt gemacht werden. Dieser Ausgangspunkt 
hat jedoch nicht zu einer Theorie oder Kontroverse gefiihrt, was unter wel- 
chen Umstanden prinzipiell erlebt werden kann; die Grenzziehung wurde der 
Vp, dem VI und ihrer gemeinsamen alltaglichen und wissenschaftlichen Spra- 
che iiberlassen. 
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2.3.4 Anmerkungen zu typischen Ergebnissen 

Ergebnisse vorbehavioristischer Studien mit einer Methode der Selbstbeobach- 
tung liegen oft auf drei verschiedenen Abstraktionsstufen vor: 1) als umfang- 
reiche wortliche Mitschrift, in der Regel wegen des Umfangs nicht oder nicht 
vollstandig veroffentlicht, auch wegen ihrer Unvollstandigkeit wohl nicht ger- 
ne aus der Hand gegeben, wobei sich Ach einiges von der Einfiihrung des 
Phonographen verspricht 2) als kondensiertes Protokoll, deren Wiedergabe 
oft die Halfte einer Publikation ausmacht und den Leser im interpretativen 
Nachvollzug zu 3) den theoretischen SchluBfolgerungen fiihren soil. Der 
iibergang von der einen zur anderen Ebene ist noch nicht systematisch kon- 
trolliert; Prinzipien und Methoden etwa der Inhaltsanalyse waren darnals noch 
nicht bekannt. 

„Was freilich in der Fruhzeit des experimentellen Arbeitens mit Selbstbeobachtungen 
ebenso wie bei manchen philosophischen Autoren vergessen wurde, ist der mittelbare 
Aussagewert von sprachlichen AuBerungen liber innerseelische Vorgange. Jede Aussa- 
ge iiber ein Phiinomen steilt ja nicht ohne weiteres die Abbildung einer Tatsache dar. Sie 
ist zunachst einrnal eine verbale Reaktion auf eine Situation, die interpretiert werden 
muB wie irgendeine andere Reaktion.' 1 (Thornae 1960, S.32). 

Thomae hat konsequent flir Selbstbeobachtungen bei intraindividuellen Kon- 
flikten Verfahren der systematischen Inhaltsanalyse auf verbale Schilderungen 
von Erleben und Verhalten angewendet; Feger und Feger (1969 a, b) haben die 
Anwendung der Inhaltsanalyse auf erlebnisdeskriptives Material der Entschei- 
dungsforschung weiterentwickelt. Urn die nachfolgende Kritik verstandlich zu 
machen, sei hier ein Teil eines typischen kondensierten Protokolls (Ach, 
S. 38 f.) wiedergegeben: 

„Bei Jetzt wurde der Finger auf den Taster niedergedrlickt mit dent Wissen, daB er 
niedergedriickt werden soil. Dann wurde die Blechplatte (VerschluBplatte des Karten- 
wechslers) fixiert und innerlich gesprochen ,,wird gleich kommen" oder ,, jetzt 
kommts“ , ..jetzt kommts" mit der Bedeutung, daB dort, wo fixiert wird, etwas (i.e. 
weiBe Karte) eintreten wird. Dabei bestanden Spannungsempfindungen als sinnliche 
Begleiterscheinungen der Aufmerksamkeitskonzentration in den Augen, Stirngegend, 
Schlafen, zuweilen auch in den Gesichtsmuskeln und in den Schultern, sowie ein An- 
halten des Atems. Spannungsempfindungen in der Hand oder im Finger waren nur 
ausnahmsweise vorhanden. Trotzdem war in dent gesamten Spannungszustand das 
Wissen enthalten, daB sofort reagiert werden soil, ohne daB dies innerlich gesprochen 
wurde, oder sonst phanomenologisch reprasentiert war. AuBerdem bestand die Be- 
wuBtheit, daB in kurzer Zeit das Erwartete eintreten, d.h. die Karte kommen wird, also 
neben der sonstigen Bestimmtheit des Erwartens auch eine zeitliche Komponente. 

Die Erwartung selbst konzentrierte sich auf die kommende Karte, so daB diese im 
Mittelpunkt des gesamten Erlebnisses stand. Aber nur ausnahmsweise war dieselbe 
visuell gegeben (1. Versuch des 5. Tages), und auch hier war es nur „wie die Andeutung 
eines visuellen Streifens an der oberen Kante der VerschluBplatte, dessen Helligkeits- 
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qualitat nicht als weiB zu bezeichnen war. “ Sonst war die weiBe Karte nur als BewuBt- 
heit im Erwartungsinhalt gegenwartig d.h. Versuchsperson wuBte. daB dort, wo sie 
fixierte, die weiBe Karte erscheinen wird, ohne daB dieser auf die weiBe Karte sich 
beziehende Vorstellungsinhalt anschaulich reprasentiert war.“ 

In diesem Protokoll erscheinen schon wesentliche theoretische Termini wie 
„Spannungsempfindung“, Aufmerksamkeitskonzentration“, ,,Bewu8theit“, 
..Erwartungsinhalt" und ,, Vorstellungsinhalt". Es ist nicht durchgangig klar. 
fur welche verbale AuBerungen der Vp sie jeweils stehen, und es ist nicht 
nachprufbar, wie stark in der sich bisweilen iiber Wochen erstreckenden Inte- 
raktion zwischen VI und Vp die Anregungen des VI waren, entsprechende 
sprachliche Beschreibungen zu erzeugen. Pointiert formuliert wird die Vp zur 
Projektionsflache ftir die theoretischen Vorstellungen des VI, und zwar so 
wenig kontrolliert, wie wir es uns heute kaum noch vorstellen konnen und 
gestatten wiirden. 



2.4 Die behavioristische Kritik der „Introspektion“ 

Der Behaviorismus, den Watson (1913; 1968) von Anfang an selbst so taufte, 
verstand sich, ebenso von Anfang an, als Gegenwendung gegen eine mit Intro- 
spektion arbeitende BewuBtseinspsychologie. Das bekannte behavioristische 
Manifest von 1913 beginnt mit den Satzen: 

..Psychologie. wie sie der Behaviorist sieht, ist ein vollkommen objektiver, 
experimenteller Zweig der Naturwissenschaft. Ihr theoretisches Ziel ist die 
Vorhersage und Kontrolle von Verhalten. Introspektion spielt keine wesentli- 
che Rolle in ihren Methoden . . .“ (1968, 13). 

Watsons Vorbehalte waren insofern doppelter Art, als sie sich ineins gegen das 
BewuBtsein als Forschungsgegenstand der Psychologie und gegen die Intro- 
spektion als Forschungsmethode wandten, wobei die beiden Seiten dieser 
Kritik wie - in Watsons Sicht - auch ihre beiden Objekte einander beding- 
ten. Es ware heute nur rnehr von historischem Interesse, Watsons oft durch 
Polemik vergroberte Kritik der Introspektion in einen methodologischen Bei- 
trag aufzunehmen. Die behavioristische Kritik als solche findet sich ohnehin 
differenzierter bei deni Protagonisten eines Radikalen Behaviorismus, B. F. 
Skinner (1953; 1963; 1974). Seine Kritik richtet sich nur gegen die Methode der 
Introspektion, nicht gegen das BewuBtsein. Als , .private world within the 
skin" gilt das Innere als ein kleiner Teil des gleichen Universums, das wir 
auBen besser beobachten konnen. Aber fur den inneren Teil gilt: 

..Wir ftthlen ihn und beobachten ihn auch in einem gewissen Sinn, und es ware 
unsinnig, diese Informationsquelle bloB deswegen zu vernachlassigen, weil nie 
mehr als eine Person Kontakt mit einer inneren Welt aufnehmen kann. Nur 
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bedarf unser Verhalten bei dieser Kontaktnahme der Uberpriifung“ (Skinner 
1974, 24). 

Beriicksichtigt man den sozialen Ursprung unserer Selbstkenntnis und die 
Tatsache, daB etwas Fiihlen und darliber Berichten zweierlei ist, dann ist auch 
die behutsame Verwendung von Berichten iiber , .private Ereignisse innerhalb 
der Haut“ zu vertreten. iiber den ..praktischen Nutzen von Berichten iiber die 
innere Welt, die gefiihlt und introspektiv beobachtet wird“, heiBt es, daB sie 
Anhaltspunkte ergeben (l)fiir vergangenes Verhalten und die Bedingungen, 
unter denen es stand, (2) fur laufendes Verhalten und dessen Bedingungen und 
(3) fiir Bedingungen , die sich auf kiinftiges Verhalten beziehen“ (Skinner, 
a.a.O., 35). 

Die Nutzanwendung dieser Empfehlung findet sich in den entsprechenden mit 
Selbst-Beobachtung und Selbstkontrolle operierenden Techniken der (klini- 
schen) Verhaltensmodifikation (vgl. hierzu Kanfer 1975; Braun 1978). 

Fiir die Grundlagenforschung hingegen dominieren in Skinners eigenen Arbei- 
ten die Bedenken gegeniiber dent Einsatz introspektiver Methodik. Sie lassen 
sich dahingehend zusammenfassen, daB (1) introspektive Berichte nie genau 
genug sein konnen, weil die Entsprechung zwischen den privat bleibenden 
inneren Ereignissen und den sie (wenn iiberhaupt) begleitenden Umweltkon- 
tingenzen und dem sie kommentierenden (erklarenden oder beschreibenden?) 
verbalen Verhalten nie ganz verlaBlich iiberpriift werden kann und zwar prin- 
zipiell nicht; (2) die Beriicksichtigung mentaler Ereignisse fiir eine funktionale 
Analyse des Verhaltens entbehrlich sei. In der funktionalistisch verstandenen 
Kausalkette ist es wichtig, das erste Glied (genetische und/oder Umweltbedin- 
gungen) zu kennen bzw. zu beherrschen, um - unter AuBerachtlassen des 
mittleren mentalen Gliedes - das dritte Glied des manifesten Verhaltens vor- 
hersagen bzw. modifizieren zu konnen. Die Kenntnis des zweiten Gliedes 
verniag ein gewisses Licht auf die Gesamtbeziehung zu werfen, sie aber nicht 
zu andern (Skinner 1953, 35). AuBerdem - und man mag dies als einen 
eigenen Einwand betrachten - fordert (3) die Beriicksichtigung mentaler Er- 
eignisse die Neigung und die Gefahr, allzuschnell Verhaltensweisen und 
-anderungen auf hypothetische innere Variablen zuriickzufiihren, statt weiter 
nach auBeren Ursachen zu forschen. 

Wenn man ebenso abwagend wie Skinner die Vor- und Nachteile der Selbstbe- 
obachtung darstellt, die Skinnersche und mit ihr iiberhaupt die behavioristi- 
sche Kritik an introspektiven Verfahren beurteilt, kann man, wie es D.A. 
Lieberman (1979) getan hat, durchaus fiir eine (limitierte) Wiederzulassung der 
Selbstbeobachtung pladieren. Zur spat- bzw. nachbehavioristischen Rehabili- 
tation der introspektiven Methodik vgl. auch Bakan (1959); Natsoulas (1970; 
1978); Dilkington & Glasgow (1967); Radford (1974) und White (1980); spe- 
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ziell zur historischen Rehabilitation ihrer Darstellung die - vor allem Boring 
(1953) korrigierende - Arbeit von Kurt Danziger (1980). 



2.5 Die Technik des lauten Denkens 

Was wir bei Kindern ohne Schwierigkeit beobachten und wobei wir auch uns 
selbst. wenn wir ganz allein sind, noch gelegentlich ertappen, ist ein mehr oder 
weniger fragmentarisches lautes Denken. Beim Losen eines Problems horen 
wir den Betreffenden einzelne Losungsschritte anktindigen, andere bereits ge- 
tane rekapitulieren, gegenwartige kommentieren usw. 

Es war der Schweizer Denkpsychologe Edouard Claparede, der. unzufrieden 
mit der systematischen experimentellen Selbstbeobachtung der bisherigen 
Denkpsychologie, die von ihm ..gesprochenes Denken“ (reflexion parlee) ge- 
nannte Methode 1917 einfiihrte (Claparede 1965). Karl Duncker ubernahm sie 
dann 1926 (Duncker 1926; 1966). 

..(Die Methode) besteht darin, jemanden die Losung eines mehr oder minder schwieri- 
gen Problems aufzutragen... und diese Versuchsperson zu bitten, laut zu denken. Es 
handelt sich hier nicht um Introspektion, denn diese besteht aus der Analyse von 
BewuBtseinsprozessen, aus der Beschreibung ihrer Eigenart und ihrer Struktur. Hier 
handelt es sich einfach darum, die Denkschritte zu erzahlen; es gilt zu beobachten. was 
das Denken tut, nicht. was es ist. Wenn Sie wollen, ist es eine behavioristische 
Methode, die den Ablauf des inneren Verhaltens zu bestimmen versucht. Vor der 
Introspektion hat sie den Vorteil, daB sie keine Spaltung der Versuchsperson verlangt: 
diese muB nicht zugleich denken und sich denken sehen“ (Claparede, a.a.O., 110). 

Ahnlich argumentiert und operiert Duncker (1926, 664; 1966, 2), der die 
Methode unter Bezeichnungen des ,, thinking aloud“ und des ..lauten Den- 
kens“ bekannt gemacht hat. Sicher gibt es, wie eigene Empirie belegt. immer 
wieder mal Versuchspersonen, denen das Verbalisieren schwerfallt. die der 
Zwang zum Sprechen beim Denken irritiert. Und ebenso sicher gibt es keine 
Moglichkeit zu uberprlifen, wieviele Gedanken ungeauBert bleiben. Trotzdem 
hat diese Methode, vor allem, wenn sie beim Problemlosen mit Verhaltensbe- 
obachtung gepaart werden kann, in der modernen Denkforschung ihren festen 
Platz gefunden; man vergleiche etwa die Untersuchungen von Liter (1973) und 
Dorner (1974) und die Behandlung der Methode als ,,weitverbreitete“ Daten- 
quelle bei Ericsson & Simon (1980). 



2.6 Phanomendeskription 

Schon in den spateren Auflagen der Arbeiten von Wilhelm Wundt setzte sich 
allmahlich der Begriff des Erlebens durch, zuerst noch gebunden als ,,BewuBt- 
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seinserlebnis“. Dieser neue bald und bis heute eingebiirgerte Themenbegriff 
der Psychologie stand schliefilich fiir alle Modalitaten unmittelbarer Erfah- 
rung, ob Wahrnehmen, Vorstellen, Denken, Urteilen, Fiihlen oder Wollen. 
Parallel zu dieser Entwicklung, sie wohl mitbedingend, hatte sich in der Pha- 
nomenologie ab der Jahrhundertwende eine neue BewuBtseinskonzeption 
durchgesetzt, deren wesentliches Bestimmungsstlick Intentionalitat war (S.O.; 
vgl. hierzu auch Gurwitsch 1966). An die Stelle eines ,,Behaltnismodells“ des 
BewuBtseins, in dessen ,,Innerem“ man Inhalte und Akte (Prozesse) ansetzte. 
die man durch „Introspektion“ ini engeren Sinne zu beobachten trachtete, trat 
das Modell eines ..intentional" auf die ..Dinge selbst" gerichteten BewuBtseins 
(bzw. Erlebens) (vgl. hierzu Graumann 1966; Nuttin 1955). 



Das, was sich diesem BewuBtsein zeigte (..Phanomen"), konnte der Deskrip- 
tion und weiteren Analysen unterzogen werden, so wie es sich zeigte und rein 
in den Grenzen, in denen es sich zeigte. Das methodische Postulat, das die 
Phanomendeskription betreibende Psychologie sich - unter deni Eindruck 
der Husserlschen Phanomenologie - verordnete, lautet in der erkenntniskri- 
tisch vielleicht anspruchsvollsten Fassung bzw. Forderung: 

..Das Vorgefundene zunachst einfach hinzunehmen, wie es ist; auch wenn es un- 
gewohnt, unerwartet, unlogisch, widersinnig erscheint und unbezweifelten Annahmen 
oder vertrauten Gedankengangen widerspricht. Die Dinge selbst sprechen zu lassen, 
ohne Seitenblicke auf Bekanntes, friiher Gelemtes, .Selbstverstandliches 1 . auf inhalt- 
liches Wissen, Forderungen der Logik. Voreingenommenheiten des Sprachgebrauchs 
und Llicken des Wortschatzes. Der Sache mit Ehrfurcht und Liebe gegeniiberzutreten, 
Zweifel und MiBtrauen aber gegebenenfalls zunachst vor alleni gegen die Vorausset- 
zungen und Begriffe zu richten. mit denen man das Gegebene bis dahin zu fassen 
suchte" (Metzger 1954, 12). 

Nur uni einem gegeniiber einer deskriptiv vorgehenden oder gar phanomeno- 
logisch orientierten Psychologie haufig aktualisierten Vorurteil entgegenzu- 
wirken, sei der obigen Forderung noch mit Wolfang Metzger die Anmerkung 
beigefligt, daB dieses Deskriptionsgebot keinen Verzicht auf weiterflihrende 
Hypothesenbildung und deren experimentelle Priifung bedeutet, wohl aber, 
,,daB es sinnlos ist und zu Fehlansatzen fiihren muB, wenn man zu Annahmen 
und Untersuchungen liber Ursachen und liber Wirkungen des zunachst Gege- 
benen iibergeht, ohne dieses iiberhaupt recht zu kennen" (Metzger a.a.O., 

13). 

Modellbeispiele fiir eine derartige Phanomendeskription, die hier aus Rauni- 
griinden schlecht wiedergegeben werden konnen (sie sind, weil differenziert, 
entsprechend umfangreich), finden sich in der phanomenologischen Literatur 
etwa bei W. Schapp (1976), in der psychologischen Literatur etwa bei David 
Katz (1911; 1929); ini iibrigen sind viele der heute klassisch genannten Arbei- 
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ten der Gestaltpsychologen seit Wertheimer (1912) und Kohler (1921) mit 
Hilfe solcher Phanomendeskription zu ihren Ergebnissen gekommen. Demge- 
genliber ist die neuere Psychologie arm an derartigen Dokumenten reiner 
Erlebnisdeskription (vgl. aber Gibson 1950; deutsch 1973). 



2.7 Behavioristische Selbstwahrnehmung 

Eine der neueren Darstellungen der behavioristischen Auffassungen gibt Bern 
(1972, S. 2), der die folgende Zusammenfassung als die zentralen Annahmen 
seiner Theorie der Selbstwahrnehmung bezeichnet: 

..Individuals come to „know“ their own attitudes, emotions, and other internal states 
partially by inferring them from observations of their own overt behavior and/or the 
circumstances in which this behavior occurs. Thus, to the extent that internal cues are 
weak, ambiguous, or uninterpretable, the individual is functionally in the same position 
as an outside observer, an observer who must necessarily rely upon those same external 
cues to infer the individual's inner states." 

Diese Position geht im wesentlichen zuriick auf die radikal-behavioristische 
Analyse sog. ,, private events" durch Skinner (1945, 1953, 1957). Bern behan- 
delt das Thema weiter unter der aufschluBreichen Kapiteliiberschrift ,,The 
ontogeny of self-attributions". Uni innere Zustande richtig beschreiben zu 
konnen, muB ein Kind dies lernen, und zwar von jemandem, der es Namen flir 
diese Zustande lehrt und ihm beirn Unterscheiden ahnlicher Zustande hilft. 
Dabei ergibt sich das Problem, daB dieser Lehrer, der ,,auBenstehende“ Beob- 
achter, den Zeitpunkt und die Gelegenheit feststellen muB, wo beirn Kind der 
..kritische innere Reiz" auftritt, z.B. Schmerz, wenn es sich den Kopf stoBt. 
Die Beschreibung ,,das tut weh" mag dann in das Reaktionsrepertoire des 
Kindes aufgenommen werden, wenn beispielsweise die Mutter sagt: ..Weine 
nicht, ich weiB ja, daB es dir weh tut." Das Kind kann diese Beschreibungs- 
Reaktion generalisieren auf die Wirkung einer groBeren Zahl schmerzerzeu- 
gender Reize. Am Anfang stand - nach Skinner wie Bern - ein beobachtba- 
rer auBerer Reiz (Kopf stoBen) und vielleicht eine beobachtbare Reaktion 
(Weinen). Es ist dann rigoros und konsequent anzunehmen, „. . . that we have 
virtually no knowledge at all until we have been explicitly trained. Internal 
identifications that we have not been taught remain internal identifications that 
we cannot make." 

Die Uberpriifung der Theorie, insbesondere die Ableitung spezifischer, empi- 
risch prtifbarer Hypothesen, ist noch nicht weit vorangekommen. Berns (1965; 
1966) hierzu angestellte Experimente sind schwierig zu bewerten und setzen 
sich im wesentlichen mit der Dissonanztheorie auseinander. Wir wenden uns 
daher einigen Unterschieden zu, die Bern (1972) zwischen Selbstwahrnehmung 
und interpersonaler Wahrnehmung herausstellt. Die erste Unterscheidung 
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wird als die zwischen insider versus Outsider getroffen. Dem Selbstbeobachter 
des eigenen Erlebens stiinden Reize zur Verfiigung, die dem Fremdbeobachter 
nicht verfugbar seien, und auch zwischen diesen Reizen konne diskriminiert 
werden, wenn auch deshalb relativ schlecht, weil die Gemeinschaft derer, die 
die gleiche Sprache sprechen, nur begrenzt imstande ist, solche Differenzie- 
rungen einzuiiben. Die zweite Unterscheidung ist die zwischen intimate versus 
stranger. Fur den Selbstbeobachter steht die Kenntnis der eigenen Vergangen- 
heit zur Verfiigung, die fur den AuBenstehenden nicht als Bezugssystem die- 
nen kann. Ihm fehlen damit Anhaltspunkte, um die inneren und iiuBeren Reize 
und Reaktionen zu bewerten. Weiter wird abgehoben auf die besonderen und 
moglicherweise verschiedenen Interessenlagen von self versus other, die zu 
Verzerrungstendenzen ftihren konnten. SchlieBlich wird die Perspektive des 
Selbstbeobachtenden als Handelnden gegen die nur observierende des Frenid- 
beobachters gestellt - actor versus observer, und aus den unterschiedlichen 
Perspektiven konnen unterschiedliche Aspekte der Situation relevant werden. 



2.8 Neuere Untersuchungen iiber bildhafte Vorstellungen 

Das in den letzten Jahrzehnten verstarkte Interesse an kognitiver Psychologie 
und an Phanomenen wie den bildhaften Vorstellungen (mental images oder 
imagery), die in der Tradition der alteren Psychologie als BewuBtseinstatsa- 
chen zu bezeichnen waren, konnte vermuten lassen, man hatte Verfahren zur 
Erfassung von Erleben in diesern Zusammenhang diskutiert, oder gar gezielt 
untersucht und verbessert. Uns interessiert hier nicht die Rolle, die bildhafte 
Vorstellungen in verschiedenen kognitiven Theorien spielen, sondern die Me- 
thoden zu ihrer Analyse. Richardson (1980) berichtet in seiner Monographie 
drei Vorgehensweisen, die fast die gesamte Forschung beschreiben: 

(1) Vpn werden instruiert, sich etwas bildhaft vorzustellen, wenn sie bestimm- 
te Aufgaben - meist des Lernens und Erinnerns - im Experiment aus- 
ftthren. 

(2) Den Vpn wird unterschiedliches Reizmaterial vorgelegt und man erhebt, in 
welchem AusrnaB das Material bildhafte Vorstellungen erzeugt, und ob 
dieses berichtete AusrnaB mit Leistungsvariablen zusammenhangt. Meist 
wird geprlift, ob Material, das mehr bildhafte Vorstellungen hervorruft, 
besser behalten wird. 

(3) Man vergleicht Vpn, die sich in der Lebhaftigkeit der von ihnen als erlebt 
berichteten bildhaften Vorstellungen unterscheiden, nach ihren Leistungen 
in Tests, welche die Fahigkeit bei raumlichen Manipulationen erfassen, 
z.B. bei der vorgestellten Rotation vorgegebener oder vorgestellter Figu- 
ren. Reaktionszeit ist eine hier typische abhangige Variable. 

Um die in diesem Forschungsbereich verwendeten Methoden zu diskutieren, 
schildern wir das Vorgehen anhand der Arbeiten von Shepard (Ubersichtsarti- 
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kel 1978). Shepard untersucht bildhafte Vorstellungen von realen Objekten. 
und zwar vorgestellten gegeniiber als Vorlage im Versuch vorgegebenen, die 
nicht ambivalent sind. also z.B. nicht mehrdeutige optische Figuren oder 
uneindeutige, TAT-ahnliche Reizvorlagen. Auf diese Weise versucht er, die 
Probleme zu umgehen, die sich daraus ergeben, daB subjektive Deutungen - 
man sieht etwas als etwas - bei einigen Reizvorlagen die entscheidende Rolle 
fiir interindividuelle Varianz spielen. Die Grundannahme dieses Versuches 
(Shepard & Chipman, 1970) wie zahlreicher anderer besteht darin, eine Aqui- 
valenz zwischen Wahrnehmung und Vorstellen zu vermuten, und zwar . . a 
more abstract or .second order' isomorphism in which the functional relations 
among objects as imagined must to some degree mirror the functional relations 
among those same objects as actually perceived." (Shepard 1978, S. 131). Dann 
miiBten - eine weitere Annahme - Vpn Fragen nach der Ahnlichkeit von 
Komponenten des vorgestellten Bildes in etwa so beantworten wie Fragen 
nach der Ahnlichkeit von Komponenten des visuell vorhandenen Bildes. Als 
typisches Ergebnis werden statistisch nicht unterscheidbare Matrizen von 
Ahnlichkeitskoeffizienten berichtet, und man schlieBt, „. . . the subjects were 
performing very similar mental processes in the perceptual and imaginal condi- 
tions" (S. 132). Da bei den Vpn ohne visuelle Vorgabe eine bildhafte Vorstel- 
lung nicht experimentell hergestellt wird, ist es denkbar, daB sie ohne solche 
Vorstellungen zu ihrem Verhalten kamen, daB sie etwa den demand characteri- 
stics des Experimentes entnahmen, wie sie reagieren sollten (vgl. Mitchell & 
Richman 1980). Forscher wie Finke & Kosslyn (1980) reagieren auf diesen 
Einwand mit dem Bemiihen, experimentelle Situationen zu erfinden, in denen 
Vpn nicht wissen konnen, was die ..richtigen" Reaktionen waren, weil diese zu 
kompliziert sind. 

Andere Versuchsplane sind gegeniiber dieser Kritik noch anfalliger, wenn bei- 
spielsweise eine Gruppe von Vpn aufgefordert wird, sich vor der Reizdarbie- 
tung eine Vorstellung dieses Reizes zu machen, und diese Gruppe mit einer 
anderen ohne diese Instruktion verglichen wird (z.B. Shepard & Metzler 
1971). Wahrend in der zuvor erwahnten Untersuchung Ahnlichkeitseinstufun- 
gen als abhangige Variable verwendet wurde, also verbale Berichte iiber Ergeb- 
nisse kognitiver Prozesse, werden im zweiten Experiment, wie auch sonst 
haufig, Reaktionszeiten verwendet, also Verhaltensbeobachtungen als abhan- 
gige Variablen. Es darf als charakteristisch fiir die heutige kognitive Psycholo- 
gy, und als Folge der behavioristischen Kritik am Introspektionismus gelten, 
daB Annahmen iiber Erleben, iiber bewuBte Prozesse, an ihren vermuteten 
Auswirkungen auf Verhalten iiberpriift werden; nur selten greift man auf 
Selbstbeschreibungen zuriick. Kognitive Vorgange werden eher als intervenie- 
rende Variablen denn als hypothetische Konstrukte aufgefaBt. 

In einer dritten Art von Versuchsplanen bemiiht man sich, die Vp zu direkten 
Operationen an ihren bildlichen Vorstellungen zu veranlassen, und diese Ope- 
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rationen sollen die gleichen sein wie an vorgegebenem Material. Podgorny & 
Shepard ( 1978) beispielsweise legten ihren Vpn in der visuellen Versuchsbedin- 
gung den in Abb. 1 A gezeigten Blockbuchstaben F vor, in der Vorstellungs- 
bedingung das leere Raster B in Abb. 1, zugleich mit der Instruktion, sich den 
mit Hilfe eines zuvor gelernten Codes beschriebenen Buchstaben F in diesem 
Raster vorzustellen. Wenn die Vp ihre voile Bereitschaft signalisierte, wurde 
ihr als Probereiz ein Punkt im Raster, Teil C in Abb. 1, z.B. mit der Frage 
dargeboten, ob der Probereiz auf der Figur lage oder nicht. AuBer der Ant- 
wort wurde auch die Reaktionszeit erfaBt. Auch bei komplizierten Vorgaben 
stimmten die Ergebnisse der visuellen und der Vorstellungs-Bedingung iiber- 
ein, so waren beispielsweise die Reaktionen kttrzer, wenn mehrere Punkte 
eines zusammengesetzten Probereizes auf die Figur fielen als wenn sie auf 
unterschiedliche Teile des Rasters fielen. Anscheinend wurden die Vorstellun- 
gen so erzeugt, daB gleichartige Operationen, jedenfalls solche mit vergleich- 
barern Zeitbedarf, bei den gleichen Aufgaben durchgefuhrt wurden. 




A B C 

Abb. 1: Vorlagen im Versuch von Podgorny & Shepard, 1978 



Beim nachsten Typus von Versuchsplan sollten laut Instruktion Operationen 
mit den Vorstellungen selbst vorgenommen werden, beispielsweise bei She- 
pard & Metzler (1971) eine Rotation dreidimensionaler Objekte im ,,Vorstel- 
lungsraum“. Gestiltzt auf mehrere solcher Experimente kommt Shepard 

(1978, S. 134) zu dem SchluB: we have established, more directly, that the 

intermediate states of the internal process do indeed have a one-to-one corre- 
spondence to intermediate orientations of the external Object. Our results, in 
fact, show that there is actually something rotating during the course of a 
mental rotation - namely, the orientation in which the corresponding exter- 
nal stimulus, if it were to be presented, would be most rapidly discriminated 
from other possible stimuli. “ 

Zweifellos stellen Ergebnisse wie diese und ahnliche jemanden, der sie ohne 
das Auftreten bildhafter Vorstellungen anzunehmen erklaren will, vor eine 
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schwierige Aufgabe. Dennoch ist in alien diesen Untersuchungen der theo- 
retisch interessierende Zustand, methodisch gesprochen: die unabhangige Va- 
riable, nicht experimentell hergestellt worden; der Erfolg der experimentellen 
Manipulation, die oft lediglich aus einer Instruktion an die Vpn besteht, ist 
kaurn oder meistens gar nicht kontrolliert worden. Wenn auch im letzten 
Jahrzehnt die Annahmen liber die Natur der untersuchten kognitiven Prozesse 
und Strukturen deutlicher geworden sind, so gilt dies nicht ftir die den Metho- 
den impliziten Annahmen, die eine Methode bei ihrer Anwendung zu einer 
geheimen Theorie des Gegenstandsbereiches rnachen, zu dessen Erforschung 
sie gerade eingesetzt werden. 



2.9 Methoden der Metakognitionsforschung 

Die ..kognitive Wende" oder gar ,,kognitive Revolution' 1 , die seit einigen Jah- 
ren selbst aus den Texten der ernsthaftesten psychologischen Grundlagenfor- 
scher und Theoretiker in die Augen springt (und an die ,,behavioristische 
Wende" nach 1913 erinnert), besagt vorerst nur, daB tatsachlich der kognitive 
Wortschatz eine unwahrscheinliche Bliite erlebt. Weniger klar ist, inwieweit 
der neue Diskurs eine ,, Wende", d.h. eine Abkehr vom ,,Behaviorismus“, 
symbolisiert. Zumindest steht das, was unter dent Zeichen eines Kognitivis- 
mus, zumeist auf dem Gebiet der , .Artificial Intelligence", allgemein der Infor- 
mationsverarbeitungsmodelle, geleistet wird, nicht unbedingt in Widerspruch 
zu elaborierten Mediationsmodellen des Neobehaviorismus. Auch von einer 
nennenswerten Wiederbelebung der bewuBtseinstheoretischen Diskussion 
kann keine Rede sein. Insofern steht auch die Weiterentwicklung der erlebnis- 
deskriptiven Methodik nicht unbedingt auf dem Programm der ,, Kognitiven 
Psychologie". 

Eine Ausnahme laBt sich jedoch erkennen: War die (iterative) Reflexivitat des 
cogito me cogitare . . .. des ,Ich weiB, daB ich weiB‘, auch ein jahrhundertealtes 
Therna philosophischer Reflexion, die Psychologie erreichte das Thema des 
Wissens iiber Wissen nur da, wo sich eine phanomenologische Einstellung, in 
der BewuBtsein thematisiert wird. realisierte. Das hat sich nun insofern gean- 
dert, als jetzt mehr und niehr Psychologen die alte Erkenntnis, daB das Tun 
eines Subjekts vom BewuBtsein dieses Tuns begleitet sein kann, sozusagen 
wiederentdecken und vor allem ftir Entwicklungs- und Padagogische Psycho- 
logie fruchtbar zu rnachen suchen. 

Uni nicht in die nach wie vor noch tabuisierte BewuBtseinsterminologie der 
alteren Psychologie verstrickt zu werden, ist schlicht die Rede von Metctkogni- 
tionen (metamemory, metalearning, metaattention), auch wenn mit (schlecht 
definierbaren) ,,Kognitionen iiber Kognitionen" (Meichenbaum et al. 1979) 
doch nur ..knowing about knowing" (Brown 1978) gemeint ist. Immerhin 
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diirfte dieser Bereich der mensehlichen Reflexivitat, des Wissens, daB wir 
wissen und, giinstigenfalls, wie wir lernen, denken, uns erinnern, am ehesten 
von alien kognitiven Forschungsgebieten auf den Einsatz erlebnisdeskriptiver 
Verfahren angewiesen sein. 

Wiederum hangen aber der Einsatz und die Verwendung der Methoden ab von 
der Verwendung (Bedeutung) der das Feld bezeichnenden Konzepte. 

Wenngleich der Begriff bzw. die Vokabel Metagedachtnis am Anfang dieser 
neueren Entwicklung stand, muB man ihn wohl heute dem Konzept der Meta- 
kognition zuordnen: 

,,Metakognition bezieht sich auf das Wissen eines Menschen liber seine eigenen 
kognitiven Prozesse und Produkte oder was darnit in Beziehung steht, wie 
lernrelevante Eigenschaften von Informationen oder Daten. So betreibe ich 
z.B. Metakognition . . ., wenn ich bemerke, daB ich rnehr Schwierigkeiten 
habe, A als B zu lernen; wenn mir aufgeht, daB ich C nochmal prttfen sollte, 
ehe ich es als Tatsache akzeptiere; wenn mir einfallt, daB ich besser jede 
einzelne Alternative in den Multiple-choice-Aufgaben durchprlife, ehe ich ent- 
scheide, welche die richtige ist; wenn ich das Gefiihl habe, ich sollte mir D 
lieber notieren, damit ich es nicht vergesse . . (Flavell 1976, 232). 

Rein von der Funktion her wird Metakognition prirnar als Selbstkontrolle und 
-Steuerung verstanden; als ,, monitoring", was nach Flavell (1979, 2) soviel 
heiBt wie , .keeping track of how it is going and taking appropriate measures 
whenever it needs to go differently". Unabhangig davon kann man das ,,meta- 
kognitive" Wissen prirnar als Inhalt (stored contents) oder prirnar als ProzeB 
bzw. Aktivitdt auffassen (Cavanaugh & Perlmutter 1980). 

Je nach Akzentsetzung fallen denn auch die methodischen Praferenzen aus: 
beim inhaltsorientierten Vorgehen Interviews und Fragebogen, bei Aktivi- 
tatsorientierung verbale Protokolle, Verhaltensbeobachtung, ,,feeling-of- 
knowing“-Technik. 

Als jirngster Versuch in der Geschichte der Psychologie, wenigstens des (re- 
flexiven) Wissens unseres BewuBtseins habhaft zu werden, verdient seine 
Methodik besondere Aufmerksamkeit. 

Doch wird derjenige, der die Entwicklung oder den Einsatz einer neuartigen 
Methode erwartet, vorerst enttauscht. Wie schon gelegentlich in der Diagno- 
stik praktiziert, wird dieser Mangel durch eine ,,Batterie“ von Verfahren kom- 
pensiert. Dabei stellen Interview und Fragebogen die bisher verbreitetsten 
Verfahren dar, deren Schwachen, im Prinzip bekannt, neu diskutiert werden 
(Adair & Spinner 1979; Meichenbaum & Butler 1980). Bei dem von Hart 
(1965; 1966; 1967) entwickelten ,Feeling-of-knowing‘-Verfahren werden Vpn, 
die sicher sind, die Losung eines Problems bzw. die Antwort auf eine Frage 
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schon „auf der Zunge“ zu haben, sie nur nicht aussprechen zu konnen (,,tip- 
of-the-tongue-Phanomen"), zu Aussagen tiber die entsprechenden Items ver- 
anlafit, die dann mit spateren Aussagen dariiber verglichen werden (kritisch 
hierzu: Cavanaugh & Perlmutter 1980). Problematisch scheint auch die Ver- 
wendung der Reaktionszeit fiir eine Frage als Indikator der GewiBheit der Vp 
beziiglich ihres Wissens zu sein (Lachman & Lachman 1980). Nahe liegt, daB 
zur Identifikation von Metakognitionen auch die Methode des lauten Denkens 
wieder aufgegriffen wird. Sie wird erganzt durch eine Art NachfaBtechnik 
(probe technique), bei der die Vpn nach jeder Aufgabe nach den Strategien und 
Hypothesen gefragt werden, die sie bei der Bearbeitung benutzt haben. Ahn- 
lich hatte schon Giorgi (1967), um die Gleichgewichtigkeit von ,, experimental 
data" und ,, experiential data" zu demonstrieren, nach einem traditionellen 
Experiment zum seriellen Lernen seine Vpn in einer postexperimentellen Be- 
fragung zur subjektiven Schwierigkeit u.a. vernommen und dadurch erst Zu- 
gang zu den Losungsansatzen (und zur sinnvollen Interpretation seiner Daten) 
gefunden. Es besteht die Hoffnung, daB durch das jungste Interesse an Meta- 
kognitionen die methodisch noch entwicklungsfahige Kombination von Ver- 
haltens- bzw. Leistungs- und Erlebnisdaten neue Impulse erfahrt. 



3. Aktuelle Probleme der Verhaltensbeobachtung 

Anders als im Artikel tiber die wissenschaftliche Beobachtung (Feger, in die- 
sem Band), in dent allgemeine methodische Probleme der wissenschaftlichen 
Beobachtung besprochen wurden, wenden wir uns hier Ansatzen zu, die ver- 
suchen, Beobachtungsverhalten mit Hilfe psychologischer Begriffe und Theo- 
rien zu beschreiben und zu erklaren. SchlieBlich ist Beobachten menschliches 
Verhalten, und somit Bestandteil des Gegenstandsbereiches unseres Faches. 
Wir befassen uns zunachst mit der Frage, wie der Gegenstand einer psycholo- 
gischen Verhaltensbeobachtung zu bestimmen sei, dann mit der teilnehmen- 
den Beobachtung, mit den Regeln, nach denen Beobachter ihre Beobachtungs- 
einheiten festlegen, und schlieBlich mit den Zusammenhangen zwischen Beob- 
achtung, Gedachtnis und verbalem Bericht iiber das Beobachtete. 



3.1 Der Gegenstand psychologischer Verhaltensbeobachtung 

Wir stellen zunachst die Frage, was gegenwartig typischerweise Untersu- 
chungsgegenstand psychologischer Beobachtungsstudien ist und wie er genau 
anzugeben sei, wobei wir der Ubersicht von Longabaugh (1980) weitgehend 
folgen. Fongabaugh unterscheidet zwei Brennpunkte der Analyse: Was zeigt 
sich als Verhalten, und wie zeigt es sich: 
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„The study of ,what‘ is rhe study of what it is actors communicate to one another: both 
what is intended and encoded and what is received or decoded. The study of .how' is 
the study of how the content is expressed." (p. 64). 

Die Untersuchung der Erscheinungsformen hat sich in den letzten Jahrzehnten 
stark ausgebreitet und spezialisiert, wobei sich zwei Schwerpunkte gebildet 
haben: Die Analyse des Sprechens und der nichtverbalen Kommunikation 
(z.B. Duncan 1969) und der Bewegungen des Korpers (z.B. Birdwhistell 
1970. Scheflen 1975). 

Neben Erscheinungsform und Inhalt werden, urn den Untersuchungsgegen- 
stand genau zu bestimmen, ,, actors, targets, and settings" anzugeben sein. 
Man wird also diejenigen bestimmen miissen, von denen das Verhalten aus- 
geht, diejenigen, auf die es gerichtet ist, und die Umstande schildern miissen, 
unter denen das Verhalten verwirklicht wird. Longabaugh fiihrt ein Klassifika- 
tionssystem von Lambert (1960) weiter, in dem fur Verhaltenstrager, Verhal- 
tensziele und Verhaltensumwelt unterschieden wird, ob sie als einmalig und 
spezifisch festgelegt oder als Klasse umschrieben oder unspezifiziert gelassen 
werden. Fur Verhaltenstrager beispielsweise bedeutet die erste Kategorie, daB 
eine Einzelfallstudie durchgefuhrt wird, die zweite Kategorie, daB beispiels- 
weise zwolfjahrige Madchen in Bayern untersucht werden, die dritte Katego- 
rie, daB Ergebnisse ohne Angabe des Bereichs der Verallgemeinerbarkeit mit- 
geteilt werden. Als wichtig unterstreicht nun Longabaugh, daB auch Verhal- 
tensziele und settings nach dem Grad der Spezifitat charakterisiert werden 
konnen und miissen: ,, Because of the variable and sometimes overwhelming 
effects of targets and settings on behavior, researchers of behavior in naturali- 
stic settings cannot let any of these elements go unidentified." Dabei sollte die 
Charakterisierung nach jenen Merkmalen erfolgen, die als fiir das beobachtete 
Verhalten als wesentliche Ursachen, Bedingungen, Voraussetzungen etc. ange- 
sehen, oder - besser noch - aus einer Theorie des Beobachteten abgeleitet 
werden. Dann ergibt sich als weiterer Vorteil neben der eindeutigen Abgren- 
zung des Aussagenbereichs die Moglichkeit, das Beobachtete umzuklassifizie- 
ren, insbesondere dann, wenn in einer Bedingungskombination rnehr Hetero- 
genitat als erwartet beobachtet wurde. 

Die Beschreibung der Umwelt kann nach Longabaugh aus drei Perspektiven 
erfolgen: erstens als die physikalische Beschreibung der Objekte und des Ter- 
rains (z.B. Barker 1968, Whiting & Whiting 1975), zweitens als Beziehung 
zwischen der beobachteten Person und ihrer Umwelt, wobei die relevanten 
Aspekte der Umwelt - zusammengefaBt als Situation des Beobachteten - aus 
der Kovariation von Verhalten und Umweltvariablen erschlossen wird (z.B. 
Skinner 1953), und schlieBlich drittens als die Bedeutung, die einer Gelegen- 
heit, einem Ort, einem AnlaB von den typischen Benutzern, Anwesenden und 
Teilnehmern gemeinsam und ubereinstimmend zugeschrieben wird (z.B. Bar- 
ker & Schoggen 1973). 
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3.2 Analyse des Beobachters als MeBinstrument 

3.2.1 Die Ennittlung von „Fehlem” 

Beobachter werden haufig dann eingesetzt, wenn es keine MeBinstrumente 
gibt, um das zu erfassen, woran der Wissenschaftler interessiert ist. Der Beob- 
achter iibernimmt dann die Funktion eines MeBinstruments: 

..When a person makes a perceptual judgment, he acts as a kind of measuring instru- 
ment. and the theory of perceptual judgments is an attempt to understand how these 
measurements are produced." (Greeno 1968, S. 1). 

Der Gedanke liegt nahe, man miisse die Eigentiimlichkeiten, Unvollkommen- 
heiten, ,,Fehler“ dieses menschlichen MeBinstrumentes kennen, um sie bei 
Schliissen aus den Beobachtungsergebnissen beriicksichtigen zu konnen. Aus 
anderer Perspektive geben diese Fehler AufschluB liber den Menschen als 
kognitives System, das zu analysieren Aufgabe der Allgemeinen Psychologie 
ist. Im ersten Fall interessiert nach wie vor primar das Beobachtete, und die 
Fehleranalyse ist in Gefahr, ein Inventar von Kuriosa zu bleiben; im zweiten 
Fall interessiert der Beobachter als solcher. Zwischen diesen beiden Polen 
schwankten die Auffassungen in der Psychologiegeschichte, wobei der Fehler- 
auffassung historisch friiher nachgegangen wurde, und zwar besonders dann, 
wenn in einem bestimmten, relativ umgrenzten Forschungsbereich - etwa bei 
der Personenbeschreibung in der Diagnostik und Sozialpsychologie, als Er- 
wartungsfehler in der Psychophysik oder Kontexteffekt in der Wahrneh- 
mungsforschung - sich solche UnregelmaBigkeiten zeigten, die mit dem um- 
grenzten Bereich anscheinend nichts zu tun hatten. Die Fehler scheinen relativ 
unabhangig von Inhalt des jeweils Wahrgenommenen und deshalb Merkmale 
von Beobachtern allgemein zu sein. 

Guilford (1954, S. 278ff.) gibt eine Ubersicht der bis dahin haufiger unter- 
suchten Fehlerarten: der Fehler der zentralen Tendenz (error of central tend- 
ency), der Fehler der Milde (leniency) oder der GroBziigigkeit (generosity 
error), logische Fehler, verzerrende Effekte der zeitlichen Reihenfolge: starke- 
rer EinfluB der zuerst (primacy-) oder zuletzt (recency effect) aufgenomme- 
nen Elemente einer Serie, und besonders der Halo-Effekt. Man konnte Eigen- 
tiimlichkeiten im Umgang mit bestimmten Urteilssprachen hinzunehmen, et- 
wa die bevorzugte Verwendung bestimmter Kategorien einer Rating-Skala, 
oder Einflilsse, die von anderen Zielen und Absichten des Beobachters ausge- 
hen als gerade zu beobachten, beispielsweise die Wirkungen der sozialen Er- 
wlinschtheit von Reaktionen. 

Von ,,Fehlern“ kann man nur sprechen, wenn es Diskrepanzen zwischen den 
Beobachtungen und Resultaten anderer, unabhangiger methodischer Zugange 
zum gleichen Gegenstand gibt. Und die Giiltigkeit und VerlaBlichkeit dieser 
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Ergebnisse anderer Methoden muB hinreichend gesichert sein. Betrachtet man 
die erwahnten Fehlerarten in dieser Hinsicht naher, so erscheint die Problem- 
lage nicht einheitlich und fur die Annahme, es handele sich um Fehler, nicht 
giinstig. Beispielsweise wurden Fehler deshalb angenommen, weil Urteile ver- 
schiedener Beobachter untereinander nicht ubereinstimmten und man syste- 
matische EinfluBquellen ermitteln konnte - z.B. beim Mildefehler um so 
grbBeres Wohlwollen, je bekannter der Beurteilte deni Beurteiler war. Oder 
Beobachtungsleistungen wurden als Fehler bezeichnet, weil sie mit Selbstaus- 
sagen der Beobachteten nicht ubereinstimmten; Selbstaussagen sind sicher 
nicht garantiert valide. Beim Vergleich mit physikalischen MeBwerten, die an 
den beobachteten Phanomenen gewonnen wurden, ist das Fehlerkonzept in 
dent Augenblick uberholt, wo man Wahrnehmung als aktive Herstellung einer 
psychischen Wirklichkeit durch den Organismus begreift. Wir wahlen daher 
im folgenden exemplarisch einige Ansatze aus, die primar am Beobachter, und 
dann an seinen Urteilen interessiert sind. 



3.2.2 Der Einflufi von semantischen Gedachtnisstrukturen auf Verhaltensbe- 
schreibungen 

D'Andrade (1974) untersucht die Auswirkungen von langfristigem (langer als 
10 Min.) Gedachtnis auf Urteile liber Verhalten. In einer friiheren Arbeit 
(1965) zeigte er, daB Urteile liber die semantische Ahnlichkeit von Eigen- 
schaftsbezeichnungen einerseits, Verhaltenseinschatzungen andererseits nahe- 
zu die gleiche Struktur der Interkorrelationen aufwiesen. Die Isomorphismus- 
Hypothese deutet diesen Befund so, die Ahnlichkeit der Eigenschaftsnamen 
bestehe, weil sie ein Niederschlag der Erfahrungen iiber den tatsachlichen, 
beobachtbaren Zusammenhang von Verhaltenseigenschaften sei. Hingegen in- 
terpretiert die Verzerrungshypothese: Semantische Zusammenhange verfal- 
schen Urteile liber Verhalten so, daB sie in der Weise interkorrelieren, wie es 
der semantischen Ahnlichkeit entspricht. 

Zwischen beiden Hypothesen kann man nach D’Andrade entscheiden, wenn 
man iiber zweierlei Daten verfiigt: unmittelbare. detaillierte Verhaltensbeob- 
achtungen und Beschreibungen nach Ablauf eines langeren Zeitintervalls. 

„If the observer's memory-based ratings showed a very different pattern of correlations 
from that found for the data based on the actual behavior of the subjects (but a pattern 
similar to judgments of semantic similarity), it would be reasonable to reject the 
isomorphismus hypothesis and to consider the systematic-distortion hypothesis sup- 
ported." (D’Andrade 1974, S. 162). 

D'Andrade untersucht diese Frage anhand der Studien von Borgatta et al. 
(1958) und Mann (1959), deren Daten er Einschatzungen seiner eigenen Vpn 
hinzufiigte, welche die semantische Ahnlichkeit zwischen den (in Anlehnung 
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an Bales formulierten) verhaltensdeskriptiven Kategorien eingestuft hatten. 
Bestimmt wurde dann die Ahnlichkeit zwischen den Korrelationsmatrizen, 
indem Spearmans rho zwischen den entsprechenden Korrelationen in je zwei 
Matrizen berechnet wurden. Die Ergebnisse, die sich auf die Mann (1959)- 
Studie beziehen, seien in Tab. 1 wiedergegeben. Sie stutzen nach D'Andrade 
eindeutig die Verzerrungs-Hypothese. Im Gediichtnis wurden demnach Beob- 
achtungen bereits bestehenden, semantischen Strukturen angeglichen; allen- 



Tabelle 1: Vergleich von Korrelationsmatrizen mit Hilfe von Spearmans rho 
(= D’Andrade 1974. S. 176). 
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falls konnte man Beschreibungen trauen, die unmittelbar nach der Beobach- 
tung entstehen. (Borg & Bergermaier, 1979, haben in anderem Zusammenhang 
die Problematik solcher Matrizenvergleiche herausgestellt.) 

Mit der Schilderung der Arbeiten von D’Andrade sind wir in eine Kontroverse 
eingestiegen, die seit Beginn der wissenschaftlichen Psychologie zunachst aus 
der Perspektive der Beurteilungsfehler geflihrt wurde: Wenn Beobachter Ver- 
halten beschreiben und (angeblich) verhaltensbezogene Schatzurteile abgeben, 
interessiert oft nicht nur die berichtete Auspragung eines Merkmals, sondern 
der Zusammenhang zwischen mehreren Merkmalen. Und man vermutet, 
Schiitzungen des Zusammenhanges von Merkmalen konnten verfalscht sein, 
weil die Beurteiler schon ihre Vorstellungen liber den Zusammenhang der 
Merkmale hatten, und diese Vorstellungen gingen in noch naher zu bestim- 
mender Weise in die Schatzungen ein. 

Die Thematik wurde erstmals in den Forschungen zum Halo-Effekt angespro- 
chen (Wells 1907, Thorndike 1920, Rugg 1922; s. auch Rudinger & Feger, 
1970). Unter Halo-Effekt versteht man einen iiberhohten Zusammenhang 
zwischen (beurteilten) Merkmalen, verursacht durch den Gesamteindruck 
iiber den Merkmalstragern und beirn Beurteiler bestehende Annahmen ilber 
die Beziehungsstruktur zwischen Merkmalen im allgemeinen. Hat ein Beurtei- 
ler einen insgesamt positiven Eindruck von einer Person gewonnen, so werde 
er dazu neigen, sie relativ giinstig bei von ihm als positiv bewerteten, miteinan- 
der zusammenhangenden Eigenschaften einzuschatzen. Korreliert man nun 
die Urteile zu zwei Merkmalen (in der Literatur: der gleichen oder verschiede- 
ner Personen, von einem oder mehreren Beurteilern), so fallen die Korrelatio- 
nen verfalscht aus. Die Evidenz in den friihen Arbeiten fur die Existenz eines 
Halo-Effekts war zunachst nur das Auftreten unplausibel hoher Korrelationen 
zwischen Eigenschaftsratings. 

Einen Schritt weiter ging Newcomb (1931) und neuerdings D’Andrade (s.o.), 
der den EinfluB eines Halo-Effektes aus dem Unterschied zwischen Korrela- 
tionen schloB. Die eine Korrelation bezog sich auf Einstufungen von zwei 
Merkmalen unmittelbar nach der Verhaltensbeobachtung, die andere auf Ein- 
stufungen aus dem Gedachtnis, und diese fiel durchgangig hoher aus. Was 
auch immer die Verfalschung bewirkte, es brauchte eine gewisse Zeit zu seiner 
Wirkung oder es wurde durch den unmittelbaren Bezug zum beobachteten 
Verhalten an seiner Wirkung gehindert. 

DaB Beurteiler, Personen uberhaupt, relativ stabile und interindividuell ver- 
gleichbare Vorstellungen daruber haben, wie (Personlichkeit-)Eigenschaften 
kovariieren, ist spatestens seit Bruner & Tagiuri (1954) und Cronbach (1955) 
Ergebnis und Gegenstand der Forschung zur ..impliziten Personlichkeitstheo- 
rie“. Relevant sind solche Befunde auch flir Arbeiten im Bereich der Person- 
lichkeitsforschung. die ihre Aussagen stark auf Korrelationen zwischen Ver- 
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haltenseinschatzungen stiltzen (z.B. Cattell 1957, Lorr & McNair, 1965). Ihr 
Anspruch, relativ stabile Personlichkeitsdimensionen gefunden zu haben, 
wurde durch andere Forscher (z.B. Mulaik 1964, Passini & Norman 1966) in 
Frage gestellt, die diese Dimensionen als ,,Produkt stereotyper und semanti- 
scher Annahmen der Beurteiler“ deuteten (so Berman & Kenny 1976). Eine 
vergleichbare Problematik ergibt sich bei Korrelationen zwischen klinischen, 
diagnostischen Urteilen (z.B. Chapman & Chapman 1967, 1969; Starr & Kat- 
kin 1969). 

Berman & Kenny (1976) gehen wieder einen Schritt weiter: Wahrend in den 
frttheren Untersuchungen die ,,wahre“ Korrelation zwischen den Merkmalen 
unbekannt war, variieren die Autoren diese Korrelation experimentell, indent 
sie ihren Beurteilern Bilder von Personen zeigten, und mit jedent Bild eine 
Aussage darboten, die die Auspragung des Merkmals angab (z.B.: John ist 
sehr freundlich). Da John auch andere Merkmale zugeschrieben wurden, 
konnten Berman & Kenny den „wahren“, d.h. von ihnen hergestellten Zu- 
sammenhang zwischen den Eigenschaften variieren. Sie wahlten nun nicht 
beliebige Merkmale, sondern solche, die nach Einstufungen anderer Vpn in 
einer Vorstudie paarweise stark positiv, stark negativ oder gar nicht korrelier- 
ten. Die Vpn der Hauptstudie stuften aus ihrer Erinnerung die ohne Aussagen 
erneut dargebotenen Personenbilder ein. Verglichen wurden die aus diesen 
Einstufungen berechneten Korrelationen mit den von den Autoren herge- 
stellten. 

Gleichgiiltig, wie hoch die experimentell hergestellte Korrelation war: Jene 
Merkmalspaare, die nach Meinung der Vpn der Vorstudie hoch korrelieren, 
zeigten auch die aus den Einstufungen in der Hauptstudie berechneten hoch- 
sten Korrelationen. Analoges gait ftir die negativen und Null-Korrelationen, 
und dies gait auch ftir ttber alle Beurteiler gemittelte Einstufungen. Als paralle- 
ler Befund wird auf die Arbeiten von Lay & Jackson (1969) und Strieker et al. 
(1974) verwiesen, in denen grofie Ahnlichkeit zwischen den Korrelationsmu- 
stern der Antworten in Personlichkeits-Inventaren wie dem MMPI einerseits 
und Annahmen von Vpn ttber den Zusammenhang der durch diese Inventare 
erfaBten Merkmale gezeigt wurde. 

Die Arbeit von Berman & Kenny hat eine Diskussion ausgelost, in die Block 
(1977) folgende Argumente einbringt: 

(1) Die experimentelle Manipulation der Korrelation zwischen den Merkma- 
len sei ,,kttnstlich“, denn die paarweisen Merkmale seien bei holier verntu- 
teter Korrelation Homonyme, bei negativen Korrelationen aber Gegensat- 
ze gewesen. Wie man aus Arbeiten wie denen von Cohen & Schttmer 
(1968), Cohen (1971), Schttmer (1971) entnehmen konne, bemerken Vpn 
meistens, wenn und daB sie widersprttchliche Information ttber eine zu 
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beurteilende Person angeboten bekommen, und das ftthre fur zumindest 
einige Vpn zu einem , .different context of understanding". 

(2) Die Situation sei fur die Vpn von Berman & Kenny nicht die einer Verhal- 
tensbeurteilung gewesen, da ihnen kein Verhalten gezeigt wurde; es sei 
eher paired associate Lernen verlangt worden, was andere Prozesse aus- 
lose. 

(3) Die Informationsbasis der Vpn von Berman & Kenny entspreche wegen 
ihrer kurzen zeitlichen Dauer allenfalls dem Bilden eines ersten Eindrucks. 

(4) Block listet Anforderungen an Einstufungen von Verhalten auf, die seines 
Erachtens allgemein zu erflillen seien, bei Berman & Kenny jedoch teil- 
weise vernachlassigt worden waren, und zwar: 

(a) mehrere Beobachter schatzen unabhangig voneinander ein; 

(b) Beobachter sollten ihre Urteile auf extensive, und - wegen der Wirkung 
von Kontexteffekten - auf verschiedenartige Gelegenheiten stutzen 
konnen; 

(c) die Beobachter sollten eine gemeinsame ,, evaluative metric" benutzen, so 
daB es erlaubt ist, ein aggregiertes Urteil zu bilden; 

(d) ipsative Urteile seien auBennormorientierten vorzuziehen: 

(e) ,, Prior calibration of the observers", also Schulung, und konstante Kon- 
trolle der Leistung der Beobachter sollte gewahrleistet sein. 

Die Erwiderung findet sich in Berman & Kenny (1977). Sie kommentieren das 
Argument, ihren Vpn sei kein beobachtbares Verhalten als Urteilsbasis ange- 
boten worden, mit dem Hinweis, seit langem - so z.B. schon Guilford (1954) 
- hatten Psychometriker als wichtige Moglichkeit, Urteilsfehler zu reduzie- 
ren, vorgeschlagen, die Anforderungen an das Urteilsverhalten der Beobachter 
zu minimieren. Das sei in ihrer Studie geschehen, und trotzdem seien die 
ausgepragten Verzerrungen festgestellt worden. - Zum Gedanken, Urteils- 
fehler durch Wiederholungen ,,auszumitteln“. argumentieren Berman & Ken- 
ny (1977): Um Urteile iiber eine Mittelwertsbildung gtiltiger zu machen, um 
also das Gesetz der groBen Zahl anwenden zu konnen, benotige man Messun- 
gen, deren Fehler unkorreliert seien. Gerade dies sei bei Verhaltenseinstufun- 
gen in der Regel nicht der Fall. Es sei - noch anspruchsvoller - sogar zu 
fordern, daB die Fehler bei der Beurteilung des einen Merkmals durch den 
einen Beobachter unabhangig seien von den Fehlern bei den Einschatzungen 
eines anderen Merkmals durch einen anderen Beobachter. Analysen von Ber- 
man & Kenny legten den SchluB nahe, daB auch diese Bedingung nicht immer 
erfiillt sei. 

Damit haben wir die Diskussion der Abhilfevorschlage eingeleitet, die meist 
mit der Mahnung beginnen, die Urteilsskalen, ihre Etikettierung und die zuge- 
horige Instruktion sorgfaltig zu wahlen. Jeder Beurteiler solle alle Personen, 
zunachst oder ausschlieBlich, nur hinsichtlich eines Merkmals einstufen. John- 
son (1965) konnte jedoch auch bei diesem Vorgehen die Verzerrung nicht 
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vermeiden. Statistische Adjustierungen wurden von Chi (1937) und Stanley 
(1961) vorgeschlagen, wozu Berman & Kenny (1976) bemerken, die Korrektur 
geschehe bei diesen Verfahren aufgrund von Unterschieden zwischen den Be- 
obachtern, deren ,, common stereotypes" wurden also nicht beriicksichtigt. 

Die in diesem Abschnitt behandelten Arbeiten beziehen sich auf Beurteilun- 
gen, nicht auf Wahrnehmungen, aber jede Beobachtung muB in irgendeiner 
Form - und in der Psychologie ist es oft die sprachliche - ihr Ergebnis 
mitteilen. Die Studien zeigen: Wird das Verhalten nicht sogleich (vom Beob- 
achter) aufgezeichnet, so konnen systematische Verzerrungen eintreten. Er- 
klart wurden diese ,,Fehler“ zunachst als bedingt durch einen Gesamtein- 
druck, den der Beobachter vom Beobachtungsgegenstand, einer Person, ge- 
wonnen hat, dann als bedingt durch eine implizite Theorie iiber das Zusam- 
men-vorkommen der Merkmale, wobei diese die Beurteilungen steuernde 
,, Theorie" weder spezifisch auf einen bestimmten Beobachtungsgegenstand 
bezogen ist noch als charakteristisch fur einen bestimmten Beobachter angese- 
hen wird. Der Halo-Effekt wurde vom Beobachtungsfehler zu einem von 
vielen Indizien daftir, wie konkrete einzelne Beobachtungen mit friiher gesani- 
melten Erfahrungen integriert werden. 



3.2.3 Die Theorie der Signalentdeckung: Der Beobachter als Sensorium und als 
Entscheidungsinstanz 

Wir geben hier keine Darstellung auch nur der Grundziige der theory of signal 
detection (erstmals Peterson et al. 1954, van Meter & Middleton 1954), in die 
es mehrere gute Einfiihrungen, z.B. Coombs et al. (1970), McNicol (1972), 
systematische Darstellungen (Egan 1975), und iibersichten ihrer Anwendung 
in der Psychologie gibt (Swets 1964, Price 1966, Pastore & Scheirer 1974). Wir 
werden vielmehr an einem fiktiven und in einigen Punkten absichtlich unzu- 
langlichen Beispiel die Leistungen und Moglichkeiten der Theorie der Signal- 
entdeckung skizzieren. 

Ausgangspunkt der Theorie, und gegeniiber der bisherigen Psychophysik das 
wesentlich Neue ist die analytische Trennung zwischen deni Beobachter als 
einem Sensorium , einerseits, d.h. als Registriersystem, das mit einer gewissen, 
empirisch festzustellenden Sensitivitat auf die externe Reizvariation reagiert, 
und andererseits dem Beobachter als Entscheidungsinstanz, d.h. als Bewer- 
tungssystem, das fur seine Urteile iiber eine Reizgegebenheit nicht nur den 
sensorischen input beriicksichtigt, sondern auch seine subjektiven Erwartun- 
gen und Werte. Die Erwartungen konnen sich auf die Wahrscheinlichkeiten 
beziehen, daB ein Reiz, Signal, oder nur noise, kein Signal auftritt. Die Bewer- 
tungen beziehen sich auf die belohnenden Folgen eines richtigen, und die 
bestrafenden Folgen eines falschen Urteils. Die Theorie wird angewendet. 
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wenn das Signal schwach ist relativ zu den (storenden) Hintergrundreizen. Flir 
starke Reize, die stets eindeutig vom Hintergrund oder im Vergleich zu ande- 
ren Reizen unterschieden werden, ist die Theorie nicht erforderlich. Die Theo- 
rie legt fest, welches Urteil liber den Reiz man in einer unsicheren Situation 
fallen sollte, indem sie Kriterien und EingangsgroBen spezifiziert, nach denen 
die Wahl zwischen Reaktionsmoglichkeiten zu treffen ist. 

Das Beispiel: Ein Beobachter soil immer dann eine bestimmte Kodierungsmar- 
ke benutzen, wenn eine Vp einer anderen ,,freundlich zulachelt". Das freundli- 
che Zulacheln ist in dem Sinne ein ,,schwaches Signal", als es zum einen durch 
rein auBerliche Umstande - wenn etwa sich die Vp vom Beobachter mehr 
oder weniger abwendet - nur teilweise oder verzerrt als Reiz angeboten wird, 
zum anderen nicht prazise definiert ist, was ..freundlich zulacheln" bedeutet - 
es gibt keinen eindeutigen Vergleichsstandard. Andererseits ist ,, noise" stets 
vorhanden, auch fur den Beobachter zeigt die Vp ununterbrochen Ausdrucks- 
verhalten, das bisweilen dem Zulacheln ahnlich ist und damit verwechselt 
werden kann. Urn die Theorie der Signalentdeckung anwenden zu konnen, 
muB nun eindeutig geklart sein, wann in der Umwelt des Beobachters der Reiz 
auftritt, und wann nicht. Wir stoBen hier auf ein Problem, das die Ubertra- 
gung der Signalerkennungs-Theorie auf Beobachtungssituationen auBerhalb 
des psychologischen Laboratoriums erschwert hat, und das - in anderem 
Zusammenhang - D'Andrade (1974, S. 159) so formuliert: 

..Attempting to specify what aggressive means by defining the term with reference to 
more specific acts, such as hitting or insulting, still fails to make the decision process 
explicit, since the rules for coding behavior remain dependent on a set of undefined 
terms. Unless the measurement process is based solely on physical properties, at some 
point such verbal coding rules always fall back on undefined terms." 



Die Theorie nimrnt nun weiter an, die sensorische Evidenz, auf die sich der 
Beobachter fur sein Urteil stiitzt, lieBe sich als ein Kontinuum zunehmender 
oder abnehmender Starke darstellen, als eine , .evidence variable" (Ingleby 
1974) oder , .decision axis", deren inhaltliche Zusammensetzung zunachst nicht 
geklart werden muB. Uber diesem Kontinuum existieren zwei Verteilungen, 
die eine fur die Falle, in denen das Signal vorhanden ist, die andere flir die Falle 
mit ausschlieBlich Storhintergrund. Diese beiden Wahrscheinlichkeits-Vertei- 
lungen, daB bei einer bestimmten Evidenzstarke das Signal vorhanden ist oder 
nicht, hat der Beobachter aus seiner Alltagserfahrung gelernt. Die Beobach- 
tungssituation legt auch fest, sei es indirekt etwa uber eine Instruktion, frlihere 
Erfahrungen etc., sei es direkt durch experimentelle Manipulation einer Aus- 
zahlungsmatrix, wie groBen Wert der Beobachter darauf legt, zutreffend ,,La- 
cheln" und ,,Nicht-Lacheln“ zu identifizieren, und wie gravierend flir ihn die 
Fehler des false alarm (er registriert ein Lacheln, das nicht auftrat) und des 
Ubersehens sind. 
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Die Theorie definiert nun zwei statistisch voneinander unabhangige Kennwer- 
te, von denen d’ die Empfindlichkeit des Beobachters (hier: seine Sensitivitat 
fiir zutreffende Identifikation von Lacheln aus dem iibrigen Ausdrucksgesche- 
hen) und B einen Cut-Off-Punkt auf der Entscheidungsachse darstellt, der vor- 
schreibt, bis zu welcher Evidenzauspragung das Urteil ,,ich habe Lacheln be- 
obachtet“ abzugeben sei: Die analytische Trennung zwischen dem Beobachter 
als Sensorium und als Entscheidungsinstanz geschieht so, daB Erwartungen 
und Werte des Beobachters ausschlieBlich in die Bestimmung von B, nicht aber 
von d" eingehen. Um B bestimmen zu konnen, muB man noch festlegen, 
welcher Entscheidungsregel der Beobachter als bester folgen soil, und dafiir 
gibt es mehrere Moglichkeiten, etwa die, den maximal erwarteten Nutzen zu 
erstreben, oder den minimal zu erwartenden Verlust. Ein Beobachter, der in 
seinem Beurteilungsverhalten einer solchen Regel folgt, heiBt rationaler Beob- 
achter. Wenn er nun noch Leistungen zeigt, die nur durch die Struktur des 
Reizangebotes in seiner Umwelt, nicht aber durch seine Schwachen als Senso- 
rium begrenzt werden, bezeichnet man ihn als idealen Beobachter (oder Emp- 
fanger). Andert sich die Umwelt, so andert sich die Struktur des idealen Beob- 
achters in solcher Weise, daB auch unter den neuen Bedingungen die bestmog- 
lichen, nicht unbedingt 100% zutreffenden Urteile iiber die Reizgegebenheiten 
gefallt werden (Egan 1975). 

Empirische Untersuchungen (z.B. Coombs et al. 1970) zeigen, daB reale Be- 
obachter deutlich schlechtere Leistungen zeigen als ideale, und daB dies u.a. 
wahrscheinlich an unzulanglichen Speicherungen des Signals im Gedachtnis 
liegt. Wir konnen hier nicht die standig wachsende Zahl empirischer Arbeiten 
wie etwa die von Ingleby (1974) referieren; uns kam es lediglich darauf an, die 
Perspektive der Theorie der Signalentdeckung aufzuzeigen und ihre Anwen- 
dung auch auf nicht streng oder ausschlieBlich physikalisch definierte Reize zu 
diskutieren und anzuregen. 



3.2.4 Verhaltenseinschatzungen als Testscores 

Man kann, wie dies van der Kanip & Mellenbergh (1976) tun, Verhaltensein- 
stufungen als ,,a special class of test scores" auffassen, und dann konsequent 
annehmen . . that each rater may be regarded as a test instrument" (S. 311). 
Mit der Anwendung der Testtheorie (s. Kristof und Fischer in diesem Band) 
betrachtet man dann die Frage, in welcher Hinsicht Beobachter ubereinstim- 
men. Jeder Beobachter wild dabei zu einer Methode, und gefragt ist nach der 
Aquivalenz verschiedener Methoden, eine ,,zugrundeliegende“ oder ,,hypo- 
thetische" Variable zu niessen. 

Die strengste Form der Aquivalenz ist die Austauschbarkeit (ratings are inter- 
changeable), die sich mit eineni Kriterium nach Wilk-Votaw (s. Gulliksen 
1950, 1968) priifen laBt. Fur die Urteile von Beobachtern bedeutet dies, sie 
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seien in der gleichen Weise - am gleichen Skalenursprung - verankert (glei- 
che Mittelwerte), benutzten die gleiche Skaleneinheit (gleiche Varianzen), er- 
fafiten die Beziehungsstruktur zwischen verschiedenen Variablen in der glei- 
chen Weise (gleiche Kovarianzen), und ihre Einstufungen seien deshalb auch 
fiir alle Beobachter gleich verlafitich und gleichermaBen giiltig. Diese unreali- 
stischen Anforderungen werden nun von den Autoren Schritt fiir Schritt abge- 
schwacht, unterschiedliche Reliability der Beobachter wird eingeraumt, etc. 

Werts et al. (1976) gehen ebenfalls von der klassischen Testtheorie aus und 
betrachten den Fall, daB mehrere Beobachter die gleichen Objekte in mehr als 
einer Hinsicht einschatzen. Unter diesen Umstanden sei es fiir einen Beobach- 
ter kaum moglich, seine Einschatzungen auf der einen Dimension nicht von 
seinen Kenntnissen seiner Urteile auf den anderen Dimensionen beeinfluBt 
sein zu lassen. ,,This kind of contamination means that the errors of measure- 
ment for one dimension may be correlated with the errors on other dimen- 
sions, i.e., the intrajudge measurement errors are correlated." (S. 319). Dann 
sind die Kovarianzen zwischen Einstufungen auf verschiedenen Dimensionen 
durch den gleichen Beobachter nicht gleich den Kovarianzen zwischen den 
zugrunde liegenden wahren Werten, wie normalerweise in der klassischen 
Testtheorie angenommen werde. Auch die iibliche Minderungskorrektur um 
die Korrelation zwischen wahren Werten verschiedener Dimensionen zu be- 
stimmen, sei nicht anwendbar. Die Autoren entwickeln ein Analyseverfahren, 
in dent - unter der Annahme, die Fehler eines einzelnen Beobachters seien 
korreliert, nicht jedoch die zwischen verschiedenen Beobachtern - sich die 
Korrelationen zwischen den wahren Werten auf verschiedenen Dimensionen, 
die Reliabilitaten jedes Beobachters auf jeder Dimension und die Korrelatio- 
nen zwischen den Urteilsfehlern des einzelnen Beobachters berechnen lassen. 
Es interessiert in diesem Ansatz also nicht die psychologische Ursache fiir 
meist wohl iiberhohte Korrelationen zwischen verschiedenen Variablen, die 
am gleichen Beobachtungsgegenstand erfaBt werden; vielmehr wird gezeigt, 
unter welchen Annahmen ttber den Beobachter man dennoch die ,, wahren" 
Zusammenhange bestimmen konne. 



3.2.5 Brunswiks probabilistischer Funktionalismus: Beobachtung als Leistung 

Als ein Beispiel fiir die Ansatze der kognitiven Psychologie, die das Zustande- 
kommen von Wahrnehmungsurteilen detailliert beschreiben, erwahnen wir 
kurz Brunswiks Modell (Brunswik 1952, 1955, 1956; als gute Einfiihrung: 
Postman & Tolman 1959; wir folgen weitgehend dieser Darstellung). Bruns- 
wik unterscheidet die einer zentralen und motorischen Reaktion vorhergehen- 
den Bedingungen als Reize mit unterschiedlicher Entfernung vom Organis- 
mus. Er betrachtet zum einen distale Reize, Gegebenheiten der Umwelt, mit 
denen der Organismus keinen unmittelbaren Kontakt hat, zum anderen proxi- 
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male Reize, die an den Grenzen des Organismus, beispielsweise als Netzhaut- 
bild gegeben sind. 

Brunswik untersucht nun drei funktionale Beziehungen. Als erste sei die zwi- 
schen distalen und proximalen Reizen betrachtet, die dann als cues und als 
proximale Wirkungen erscheinen. Einige Hinweisreize variieren mit groBerer 
Wahrscheinlichkeit systematisch als Funktion von distalen Reizanderungen. 
Die Starke der Kovariation zwischen proximalem Elinweisreiz und distalem 
Merkmal definiert die okologische Validitat dieses Elinweisreizes hinsichtlich 
jenes Merkmals. Die okologischen Validitaten beschreiben die ererbte und 
erlernte - u. U. auch im Beobachtungstraining - Einbettung des Beobachters 
in seine Umwelt. Sie zu kennen ist filr Schllisse aus Beobachtungen auf das 
Beobachtete wesentlich. Die zweite Funktion beschreibt als Beziehung zwi- 
schen proximalen Wirkungen und zentralen, perzeptiven Reaktionen den Ge- 
brauch, den der Beobachter von Elinweisreizen macht. Um sich an distale 
Gegebenheiten anzupassen, gebraucht der Organismus die ihm verfligbaren 
proximalen Elinweisreize. Da diese nur begrenzte okologische Validitat haben, 
muB der Organismus - und, vielleicht bewuBter, der Beobachter - eine 
Regel finden, wie er verschiedene Elinweisreize gewichten und kombinieren 
soli, um die distalen Gegebenheiten moglichst richtig abzuschatzen. Die dritte 
Beziehung, zwischen distalen Merkmalen und perzeptiver Reaktion, wil'd als 
funktionale Validitat bezeichnet. Sie quantifiziert das AusmaB, in deni der 
Organismus die Wahrnehmung der Umwelt geleistet hat. 

Bei der Auseinandersetzung mit einer Umwelt kann man demnach Beobach- 
tung als Leistung in zweifacher Elinsicht untersuchen: als Transformation von 
distalen in proximale Reize und als Integration verschiedener Elinweisreize zu 
einer kognitiven Reaktion. Um die Leistung eines Organismus einschatzen zu 
konnen, muB man ihn in seinem natiirlichen Elabitat untersuchen, denn dort 
treten die Elinweisreize in jener Kovariation auf, an die der Organismus seine 
Anpassung vollzogen hat. Werden die Elinweisreize, wie oft bei Wahrneh- 
mungsexperimenten im Labor, isoliert und voneinander unabhangig variiert, 
dann mtissen die Erkenntnisse liber Teile des Systems kein zutreffendes Bild 
vom Gesamtsystem ergeben. Ein im Sinne Brunswiks reprasentativer Ver- 
suchs- und Beobachtungsplan sollte daher eine unverfalschte Stichprobe von 
Situationen aus der Okologie des Organismus ziehen (Anwendungen der 
Brunswikschen Gedanken in der Lerntheorie unter dent Stichwort multiple- 
cue probability learning task oder probabilistic concept identification task, in 
der Diagnostik s. Liter & Kluck in diesem Band; formale Weiterentwicklungen 
z.B. bei Castellan 1973, Steward 1976). 
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3.3 Die Wahl von Beobachtungseinheiten durch Beobachter 

Im Artikel iiber die wissenschaftliche Beobachtung wurde bereits die Frage 
angesprochen, wie die Beobachtungseinheit vom Forscher zu definieren und 
dem Beobachter vorzugeben sei. Wir wiesen darauf hin, daB der Forscher 
keine vollstandige Kontrolle darliber haben kann, wie der Beobachter seine 
Beobachtungseinheiten festlegt. Dann ist es also eine empirische Aufgabe, die 
tatsachlich gewahlten Einheiten zu bestimmen und die Regeln zu finden, wie 
Einheiten zustande konimen. Mit dieser Frage, wie - in welche Einheiten - 
Beobachter das Beobachtete gliedern haben sich in letzter Zeit Newtson und 
seine Mitarbeiter befaBt (Newtson 1973, 1976; Newtson & Engquist 1976; 
Newtson & Rindner 1979; Newtson et al. 1977). Nach Newtson gliedern 
Beobachter den Verhaltensstrom, indent sie aufeinanderfolgende Definitions- 
punkte wahlen. Diese points of definition, auch breakpoints genannt. sind 
Stellen, die der Wahrnehmende als jene identifiziert, an denen sich Handlun- 
gen ereignet haben. 

Beobachter scheinen diese Punkte so auszuwahlen, daB sie eine Zusamntenfas- 
sung der Information darstellen, die sie aus der Beobachtung der Handlungs- 
abfolgen gewonnen haben. Newtson (1973) geht davon aus, daB Wahrneh- 
mende aktiv die Informationsaufnahme bei der Beobachtung kontrollieren, 
indent sie eine groBere oder kleinere Anzahl von Definitionspunkten wahlen, 
also ihre Einheit der Segmentierung groBer oder kleiner festlegen. Wie kann 
man nun nachweisen, daB ,, observational units' 1 existieren, und wie kann man 
einzelne konkrete Beobachtungseinheiten identifizieren? Wenn der Stronr des 
beobachteten Verhaltens ununterscheidbar kontinuierlich erschiene, konnte 
weder der gleiche Beobachter bei wiederholten Gelegenheiten noch verschie- 
dene Beobachter ant gleichen Material ubereinstimmend Markierungspunkte 
feststellen. Die Untersuchungen von Newtson und Mitarbeitern zeigen jedoch 
hohe intraindividuelle Konsistenz und hohes interrater-agreement, wenn Ver- 
halten in Einheiten unterteilt werden sollte. Die Vpn muBten Grenzen bestim- 
men, durch die eine , .behavior unit" von einer anderen getrennt wird (Instruk- 
tion: ,,... press the button whenever, in your judgment, one meaningful action 
ends and a different one begins"). Ferner konnte diese Forschergruppe zeigen, 
daB diese Definitionspunkte andere Merkmale aufwiesen als willkiirlich aus 
der Verhaltenssequenz herausgegriffene andere Punkte. Wurden kurze Seg- 
mente aus Filmen herausgeschnitten, so konnten die Auslassungen richtiger 
entdeckt werden, wenn Definitionspunkte entfernt worden waren als bei an- 
deren Punkten. Wurden Bilder verwendet, die Definitionspunkten entspra- 
chen, so lieB sich aus ihnen das Geschehen leichter und zutreffender interpre- 
tieren als aus anderen Bildern, und die Reihenfolge der Bilder lieB sich ftir 
Definitionspunkte eher richtig bestimmen. Definitionspunkt-Bilder werden 
auch besser ini Gedachtnistest wiedererkannt. Diese Punkte, so schlieBen die 
Autoren aus diesen Befunden, stellen kein Artefakt dar, sondern stiitzen die 
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Annahme, Verhalten werde als in Einheiten gegliedert wahrgenommen und 
geschildert. Definitionspunkte werden als Reize mit besonders hoher Informa- 
tion flir den Beobachter aufgefaBt. Mit dem Signal, daB eine neue Einheit 
beginnt, ist auch Information verbunden, wie es weiter geht. Fur die Antizipa- 
tion oder Vorhersage des neuen Geschehens wird durch die Information im 
Definitions-Reiz eine Basis geschaffen, die im Verhalten der Beobachteten vor 
dem Auftreten dieses Punktes nicht vorhanden war. Fur das Verstehen von 
Verhalten ware demnach notwendig, die Information zu kennen, die durch die 
Definitionspunkte geboten wird. Flir vertraute Verhaltenseinheiten, die in sich 
relativ abgeschlossen waren, weil sie z.B. die Erledigung einer einfachen Auf- 
gabe mit ersichtlichem Zweck erforderten, konnten Newtson und Mitarbeiter 
ihre soeben geschilderte Auffassung gut belegen. Schwierigkeiten ergaben sich 
fur Verhaltenssequenzen mit rhythmischen Wiederholungen, z.B. Tanz zu 
Rockmusik. 

Inhaltlich lassen sich Definitionspunkte allgemein kennzeichnen als die Stel- 
len, an denen sich gegeniiber zuvor diskriminierten Zustanden Veranderungen 
ergeben. Vpn, die spontan oder auf Instruktion hin kleinere Einheiten kodie- 
ren, wahlen nicht andere, sondern feiner aufgeloste Einheiten. D.h., es gibt 
eine Hierarchie der Einheiten: bei der grobsten Einheitenbildung (unitization) 
werden kleinere zusammengefaBt, und zwar nach iibergeordneten Zielen, die 
dem Beobachteten zugeschrieben werden, Unterziele bestimmen die kleineren 
Einheiten. Kleine Einheiten werden spontan gewahlt, wenn Verhalten irregu- 
lar, lose organisiert erscheint, was mit der Annahme iibereinstimmt, Defin- 
itionspunkte hatten eine wichtige Funktion flir die Vorhersagbarkeit. Bleibt 
das Verhalten gleichformig, so werden allmahlich groBere, zeitlich langere 
Einheiten gewahlt. Treten unerwartete Ereignisse ein. so kehrt der Beobachter 
zur Feingliederung zuriick. 

Wie auch Wilder (1978) stellten Newtson und seine Mitarbeiter einen Trend 
fest, mit fortschreitender Beobachtungsdauer zunehmend groBere Einheiten 
zu wahlen. Anscheinend fiihle sich der Beobachter nach einiger Zeit flir seine 
Zwecke hinreichend informiert, und weitere Information werde dann nicht 
mehr beachtet, oder der Aufwand, sie zu verarbeiten. lasse nach. Die vom 
Beobachter gewahlte GroBe der Beobachtungseinheit bestimmt dann die obere 
Grenze, wieviel Information gewonnen und wie rasch Zufriedenheit mit dem 
eigenen Informationsstand erreicht werden kann. 

In diesem Zusammenhang seien einige Befunde liber die Beziehungen zwi- 
schen skalierter Informationsmenge und klinischen Urteilen berichtet, die auf 
Beobachtungen (meist Filmen) basierten (Feger, 1972, Kap. 7). 1. Je langer die 
Darbietungsdauer eines Filmes liber eine Person in Testsituationen, je ausge- 
dehnter also die Moglichkeit zur Beobachtung war, als desto hoher wurde die 
vorhanden geglaubte Informationsmenge eingestuft. Die Zunahme der Infor- 
mationsmenge erwies sich als kurvilinear, negativ beschleunigt. 2. Es gibt liber 
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verschiedene Zeitpunkte der Informationsaufnahme und iiber verschiedene zu 
beurteilende Merkmale konstante interindividuelle Unterschiede in der sub- 
jektiven Informationsmenge, liber die ein Beobachter zu verfugen glaubt. 3. 
Beobachter, die sich besser informiert glauben, stufen Verhalten extremer ein; 
ein Zusammenhang mit Konfidenz - der subjektiven Sicherheit, richtig beur- 
teilt zu haben - besteht nicht. 4. Beobachtertraining erhoht die Konfidenz. 



3.4 Der EntstehungsprozeB von Beschreibungen 

Alle Beobachtungen, alle Wahrnehmungen schlechthin, miissen wenigstens 
kurzzeitig im Gedachtnis gespeichert werden, damit sie berichtet werden kon- 
nen. Die typische Art, Beobachtungen zu berichten, ist die verbale Beschrei- 
bung. Ericsson & Simon (1980) fassen Beschreibungen von Beobachtungen 
(verbal reports) als Daten auf, d.h. sie fordern - um die Aussagefahigkeit der 
Beschreibungen abschatzen zu konnen - eine Erkliirung der Prozesse, wie 
verbale Berichte zustande konimen, und von welchen Bedingungen sie abhan- 
gen. Wie man bei diesen Autoren erwarten darf, legen sie eine kognitive 
Rahmentheorie des Entstehungsprozesses von Beschreibungen vor, deren 
Grundannahmen sich folgendermaBen skizzieren lassen: Man muB wissen, 
was ein Beobachter im Kurzzeitgedachtnis gespeichert hat. denn das kann er 
verldfilich verbalisieren. Bezieht sich die Frage eines Forschers (oder eines 
Beobachters an sich selbst) jedoch auf Material, das nicht gespeichert ist, so 
m u B e r schluBfolgern, und Schlusse dieser Art konnen falsch sein. Aufforde- 
rungen wie ..Denken Sie laut“ andern kognitive Prozesse nur dann, wenn 
durch sie eine Vp gezwungen wird, ihre Aufmerksamkeit auf Gegebenheiten 
zu richten, denen sie sich ohne eine solche Instruktion nicht zugewandt hatte. 

Ericsson & Simon beginnen ihre Argumentation im einzelnen mit einern Hin- 
weis auf die ,,schizophrene“ Behandlung verbaler Berichte durch Behaviori- 
sten. In der Forschung iiber Begriffsbildung beispielsweise werde als hartes 
Datum akzeptiert, wenn eine Vp mit ja oder nein die Frage beantwortet, ob die 
Vorlage eine Instanz des Konzeptes sei, aber nicht akzeptiert, wenn sie berich- 
tet, sie priife die Hypothese, das gesuchte Konzept sei ,,ein kleiner, gelber 
Kreis“. Es fehle ein klares Kriterium, was denn nun ein akzeptabler Report sei 
und was nicht. Ein solches einfaches Kriterium geben nun auch Ericsson & 
Simon nicht. Sie wenden das Problem vielmehr so, daB ein Verwender von 
Berichten aus deren EntstehungsprozeB beurteilen muB, ob sie f Ur seine 
Zwecke brauchbar sind. Die Frage ist dann also nicht mehr, ob eine Vp „wahr- 
heitsgetreu“ berichtet, sondern vielmehr, wie sie dazu kommt, etwas Be- 
stimmtes auszusagen. 

Unterschiede im Entstehen von Berichten ergeben sich aus den Umstanden, 
unter denen sie gewonnen wurden. Die Autoren klassifizieren diese Umstande 




Beobachtung und Beschreibung von Erleben und Verhalten 



115 



zunachst danach, ob es die hauptsachliche Aufgabe der Vp war, einen verbalen 
Bericht zu geben, oder ob die Beschreibung nur ein Nebenprodukt war, das 
bei der Bewaltigung einer anderen, der eigentlichen Aufgabe anfiel. Die Verba- 
lisierung kann weiter gleichzeitig mit der Aufgabenbewaltigung geschehen 
oder retrospektiv. Dabei kann man der Vp gezielte Fragen stellen oder solche, 
die von ihr Verallgemeinerungen verlangen. Einige Einschrankungen fur die 
Benutzung von Berichten ergeben sich sogleich aus dieser Klassifikation: 1st 
die Verbalisation nur Nebensache, konnen die Berichte unvollstandig und fur 
die Fragestellung des Forschers irrelevant sein. Steht die Verbalisation im Vor- 
dergrund, so besteht die Gefahr der Interferenz mit der Bewaltigung der Ver- 
suchsaufgabe. Bittet man die Vp um generelle Aussagen, so wird sie um so 
mehr schluBfolgern statt berichten, je allgemeiner und umfassender ihre Aus- 
sage sein soli. Wird der Bericht retrospektiv verlangt, dann werden Vollstan- 
digkeit und Gultigkeit davon abhangen, in welchem Umfang bei der friiheren 
Aufgabenbewaltigung zufallig das den Forscher Interessierende gespeichert 
wurde. 

Wie in der neueren Psychophysik wird unterschieden zwischen der inneren 
Reprasentation der gespeicherten Information und dent Bericht, und zwischen 
beiden findet der ProzeB der Verbalisation statt. Je nach der einer Vp gestellten 
Berichtaufgabe kann dieser ProzeB bedeuten, (1) daB noch nicht verbal gespei- 
cherte Information in verbale Form recodiert werden muB, (2) daB Such- und 
Filterprozesse ablaufen mussen, wenn der Bericht bestimmte Anforderungen 
erfilllen soil, z.B. nur dieses, nicht aber jenes, oder in einer bestimmten Form 
zu schildern, und (3) daB Abstraktionen und Verallgemeinerungen vom Beob- 
achter verlangt werden. 

Ericsson & Simon klassifizieren gangige Methoden, wie Forscher von Perso- 
nen Berichte erfragen (s. Tab. 2). Flir die Unterscheidungen und Beispiele im 
einzelnen muB auf die Veroffentlichung verwiesen werden. Wesentlich flir die 
Bewertung der Verfahren - es ergeben sich um so mehr Vorbehalte, je mehr 
man in der Tabelle nach unten und nach rechts geht - ist das AusmaB, in dent 
Vpn statt sich zu erinnern, um Urteile gebeten werden, und je weniger Vpn 
sich tatsachlich erinnern konnen, weil die erforderliche Information nicht 
mehr im Kurzzeitgedachtnis ist, nur unvollstandig dorthin aus dent Langzeit- 
gedachtnis zuruckgeflihrt werden kann, oder nie im Gedachtnis war. 

Das methodische Vorgehen beirn Gewinnen der Berichte ist nur ein Gesichts- 
punkt, nach dent deren Qualitat beurteilt werden kann. Ein anderer ist, die 
psychologischen Bedingungen zu beriicksichtigen, unter denen Wahrnehmun- 
gen zustande kommen und zu Berichten werden konnen. Die (schon bestehen- 
den) kognitiven Strukturen und die bei einer Beobachtungsmoglichkeit ablau- 
fenden Prozesse - wie Schwankungen der Aufmerksamkeit, Storungen durch 
die Umwelt, Automation der Vollzuge - bestimmen, was bewufit werden 
kann, und somit auch, worauf sich die Aufmerksamkeit richten kann. Das 
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Tabelle 2: Eine Klassifikation verschiedener Arten von Verbalisierungsaufga- 
ben als Funktion des Zeitpunktes der Verbalisierung (Zeilen) und 
der Abbildung von beachteter auf verbalisierte Information (Spal- 
ten); Tabelle 1 bei Ericsson & Simon (1980, S. 244) 
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wiederum legt fest, was wie gespeichert wird und abgerufen werden kann, 
wenn ein Bericht gewiinscht wird. Alle Faktoren, die fordernd oder hemmend 
auf Speichern und Abrufen wirken, beeinflussen deshalb auch positiv oder 
negativ eine zutreffende Wiedergabe (kognitiver) Gedachtnisinhalte. So wird 
die These begriindet, es gebe Bereiche, in denen im allgemeinen und besonders 
nach einer Einubungsphase die Prozesse so schnell und ohne Aufmerksam- 
keitszuwendung ablaufen, dafi ein zutreffender Bericht nicht moglich sei. Das 
wird beispielsweise fur Enkodierungsprozesse bei der Wahrnehmung, beim 
Retrieval aus dem Gedachtnis und bei motorischen Prozessen angenommen. 



3.5 Verhaltenseinschatzung (behavioral assessment) 

lm folgenden schildern wir aus methodischer Sicht einige Ergebnisse der Stu- 
dien liber Verhaltensbeobachtung, die im Zusammenhang mit verhaltensthera- 
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peutischen Zielen durchgefiihrt wurden (Uberblick Ciminero 1977). Wir 
mochten aus dieser Forschung jene Arbeiten zusammenfassen, die Einflusse 
auf Beobachtungen berichten, welche sich aus der Beobachtungssituation. aus 
dem spezifischen beobachteten Verhalten und aus Merkmalen der Beobachter 
ergeben. Verhaltensbeobachtung ist filr Auswahl, Steuerung und Bewertung 
der Therapie erforderlich. Nach dem Selbstverstandnis der Forscher in diesem 
Bereich unterscheidet sich ihr Vorgehen von der traditionellen Personlich- 
keitsforschung und der dort iiblichen Verhaltensbeobachtung u.a. dadurch, 
da8 sie nicht versuchen, zugrundeliegende Einheiten, Faktoren, der Person- 
lichkeitsstruktur aus dem Verhalten zu erschlieBen, vielmehr versuchen, die 
Bedingungen zu erfassen, die in spezifischen Situationen ganz bestimmte Ver- 
haltensweisen auslosen (ausfuhrlich in Gottfried & Kent, 1972). Peterson 
(1968, S. 114) gibt eine konzise Zusammenfassung: 

..The central features of the method are (1) systematic observation of the problem 
behavior to obtain a response frequency baseline, (2) systematic observation of the 

stimulus conditions following and/or preceding the behavior, with special concern for 
antecedent discriminative cues and consequent reinforcers, (3) experimental manipula- 
tion of acondition which seems functionally, hence causally, related to the problem 
behavior, and (4) further observation to record any changes in behavior which may 
occur." 

Charakteristisch ist also, daB dem Anspruch nach der Bereich dessen, was 
beobachtet wird, hier wesentlich erweitert ist: die Ereignisse in der Umwelt, 
die dem gezeigten Verhaltenssegment voraufgehen und nachfolgen, werden 
ausdriicklich (und nicht nur in der Deutung durch den Beobachter implizit) 
hinzugenommen, und man greift in diese Umwelt gezielt ein, um die Gege- 
benheiten herauszufinden, die das Verhalten beeinflussen. 

Zu den Methoden der Verhaltenseinschatzung werden auBer den hier nicht 
besprochenen physiologischen Messungen Berichte der untersuchten Person 
(self report, self recording, hier Selbstberichte genannt) sowohl des eigenen 
Erlebens als auch insbesondere des eigenen Verhaltens und die Fremdbeobach- 
tungen, gewohnlich durch den Therapeuten, gerechnet. Zu den Selbstberich- 
ten zahlen Interviews des Patienten durch den Therapeuten liber das Verhalten 
des Patienten (behavioral interviews), die Anwendung von Verhalten-Frage- 
bogen (Surveys and inventories) und die Anwendung von Registrierverfahren 
durch den Patienten (self-monitoring procedures), womit aus ethischen oder 
praktischen Griinden nicht direkt beobachtbare Verhaltensweisen, aber auch 
Erleben - wie der Wunsch, sich eine Zigarette anzuziinden - erfaBt werden 
sollen. Fremdbeobachtungen werden danach unterschieden, ob sie in der na- 
tiirlichen, alltaglichen Umgebung (naturalistic setting) der untersuchten Per- 
son angestellt werden oder im Labor, und zwar dort in Situationen, die dem 
Alltag des Patienten nachgebildet sind (contrived analogue settings). Wir be- 
handeln drei methodische Themenbereiche, die f Ur alle Beobachtungsarten 
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relevant sind und vergleichsweise ausfuhrlich untersucht wurden, und zwar 
Fragen der Reliabilitat, der Reaktivitat und der Auswirkung von Beobachter- 
erwartungen. 



3.5.1 Die Verlafilichkeit von Selbstberichten und Fremdbeobachtungen 

Da Beobachter meist flir die Erfassung einer bestimmten Art von Verhaltens- 
weisen geschult werden, und ein haufiges Erfolgskriterium der Schulung die 
Reliabilitat ist, stellt sich die Frage, ob eine einmal erreichte Verlafilichkeit 
erhalten bleibt, wenn sich - wie etwa bei Schizophrenic und manisch-depres- 
siven Storungen - das Verhalten der Beobachteten deutlich iindert. Redfield 
& Paul (1976) berichten gleichbleibende Reliabilitat. Kent & Foster (1977) 
berichten, in einer neuen Umgebung fiele die Ubereinstimmung zwischen 
Beobachtern zunachst ab und stiege dann wieder an. Verschiedene Verhalten- 
sarten. so wird in der Literatur haufig vermutet, jedoch selten geprlift, sollten 
sich unterschiedlich reliabel beobachten lassen. Jones et al. (1975) nehmen an, 
die Verlafilichkeit sei eine Funktion der Komplexitat des Verhaltens, wobei sie 
Komplexitat durch das vorgegebene Kategoriensystem als Anzahl der Unter- 
scheidungen definieren, die ein Beobachter bei der Datenaufnahme treffen 
mufi. Jones und Mitarbeiter fanden hohere Komplexitatswerte in Sitzungen 
kurz vor und nach Sitzungen mit Reliabilitasprufung. Die Auswirkung der 
,, Komplexitat" des Kategoriensystems untersuchten Mash & McElwee (1974), 
indem sie verbales Material nach zwei jeweils erschopfenden Kategoriensyste- 
men beurteilen liefien. Das erste enthielt nur vier Kategorien, beim zweiten 
waren diese Kategorien noch jeweils unterteilt in zwei weitere. Hohere Uber- 
einstimmung fand sich fur das System mit weniger Kategorien. Schulung an 
einem kurzen Videotape, das gut vorhersagbares Interaktionsverhalten zeigte, 
fiihrte zu einer geringeren Ubereinstimmung bei der Beurteilung eines spater 
gezeigten Bandes als Training an einem Tape mit wenig vorhersagbarer Inte- 
raktion (bestatigt in Mash & Makohoniuk 1975). 

Gut belegt ist der positive EinfluB der Erwartung der Beobachter, hinsichtlich 
der Reliabilitat kontrolliert zu werden, auf eben diese Reliabilitat (Reid 1970, 
Romanczyk et al. 1973). Taplin & Reid (1973) liefien 18 undergraduate Stu- 
denten die Interaktion zwischen Mutter und Kindern auf Videotape beobach- 
ten. Nach einer Vorschulung wurden sie in drei Gruppen eingeteilt. die sich 
durch folgende Informationen unterschieden: 1 Die Versuchsleiter wurden die 
Reliabilitat nicht prtifen. II Jeder beliebige Teil des Protokolls konne spater 
vom VI geprlift werden. Ill Es gabe Stichproben (spot checks), die zuvor als 
solche angekiindigt wurden. Unter Bedingung II zeigte sich die hochste Uber- 
einstimmung, ein mittleres Mafi unter I und geringstes unter III, aufier filr jene 
Protokollteile, flir die eine Kontrolle zuvor angekiindigt wurde. Taplin & Reid 
(1973, S. 553) schlufifolgern: 
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„The major thrust of the findings ... is to point to the danger of assuming that unmoni- 
tored observational data are reliable. Instead of being established a priori, the reliability 
of observational data ought to be empirically demonstrated. Without such demonstra- 
tions, the accuracy of observational data can only be a matter of faith." 

Beobachter kbnnen die Interpretation eines Kodiersystems zum einen wah- 
rend der Schulung auch im direkten Vergleich ihres Verhaltens mit deni ande- 
rer Beobachter lernen. Zum anderen kbnnen sie aber auch wahrend der An- 
wendungsphase indirekt lernen. etwa liber mitgeteilte Reliabilitatskoeffizien- 
ten oder inter rater agreement. Offensichtlich passen sich langer zusammenar- 
beitende Beobachter untereinander im Gebrauch von Kodiersystemen an. Da- 
fur sprechen sowohl Befunde, nach denen im Verlauf langerer Beobachtungen 
die Ubereinstimmung in einem Beobachterteam anwachst als auch der Befund, 
daB die Ubereinstimmung in einem Team meistens groBer ist als zwischen 
Beobachter aus verschiedenen Teams, selbst wenn alle Beobachter zuvor durch 
die gleiche Schulung gegangen sind (vgl. Kent & Foster 1977). 

Wir wenden uns nun der Reliabilitat von Selbstberichten zu. Eine typische 
Aufgabe beini self recording besteht beispielsweise fur einen Patienten darin zu 
registrieren, wie oft er sein eigenes Gesicht beruhrt. Die Reliabilitat, definiert 
als Ubereinstimmung mit einem externen Beobachter, ist in der Regel dann 
relativ hoch (r = .8), wenn die Patienten wuBten, daB ihre Zuverlassigkeit 
gepruft wurde, und wenn ihre Zuverlassigkeit immer wieder belohnt wurde 
(Fixen et al. 1972, Lipinski & Nelson 1974, Lipinski et al. 1975, Nelson et al. 
1975, Taplin & Reid 1973). Vergleicht man die Reliabilitat von Selbstberichten 
mit der von Daten externer Beobachtungen, so zeigen sich Selbstberichte oft 
als weniger zuverlassig. Simkins (1971) erwagt dafiir folgende Griinde: Exter- 
ne Beobachter erhalten ein besseres oder anderes Training als Selbstberichter, 
sie stehen unter verschiedenartigen Belohnungskontingenzen und benutzen 
verschiedene Kriterien fur Beurteilung und Registrierung. Bei Selbstberichtern 
konnten Reaktionen eine Registrierung behindern, die es fur externe Beobach- 
ter nicht gibt, beispielsweise konnte das zu registrierende Interaktionsverhal- 
ten die Teilnehmer, nicht aber externe Beobachter ablenken (s. Cavior & 
Marabotto 1976). 

Filr eine Zusammenfassung zahlreicher, auch hier nicht berichteter Befunde 
erscheint es dent gegenwartigen Methodenstand in diesem Bereich angemes- 
sen, wenn man bei der Diskussion der Reliabilitatsfrage davon ausgeht, daB ein 
Training die Beobachter schon bis zu einem Minimum an VerlaBlichkeit ftthrt, 
und dann nach Bedingungen gesucht wird, welche diesen einmal erreichten 
Stand beeinflussen konnen. Die Befunde sprechen dafiir, daB Faktoren, die 
zwischen Schulung und Einsatz liegen, und solche, hinsichtlich derer sich 
Situationen der Schulung von denen des Einsatzes unterscheiden, deutliche 
Unterschiede in der Reliabilitat bewirken. Zu diesen Faktoren gehoren insbe- 
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sondere Erwartungen der Beobachter, die deshalb spater in einern eigenen 
Abschnitt besprochen werden. 



3.5.2 Reaktivitat 

Wir definieren Reaktivitat (bewuBt quantitativ) als das AusmaB, in dent ein 
Verfahren das Phanomen andert, das mit ihm untersucht wird. Wir schildern 
hier nicht allgemein die umfangreiche Literatur zu Versuchsleitereffekten 
(z.B. Rosenthal 1966, 1976; Rosenthal & Rosnow 1969) oder zu nichtreakti- 
ven MeBverfahren (Webb et al. 1966), obwohl vermutlich vieles, das sich in 
dieser Literatur auf strikt experimentelles Vorgehen bezieht, auch ftir Beob- 
achtungsstudien relevant sein kann. Vielmehr beschranken wir uns hier auf 
Arbeiten, die Reaktivitat speziell bei Beobachtungen zum Zweck der Verhal- 
tenseinschatzung untersucht. 

Zunachst befassen wir uns mit der moglichen Reaktivitat von Beobachtungen, 
die durch externe Beobachter angestellt werden. Nach Kent & Foster (1977) 
konnen folgende Faktoren der Reaktivitat entgegenwirken: (1) Gewohnung an 
die Beobachter, dies wurde allerdings in einer Studie gezeigt, in der die Ge- 
wohnung iiber mehrere Wochen hinweg moglich war, bevor die Beobachtung 
selbst begann; (2) ein Beobachtungsplan mit haufigen und nicht vorhersagba- 
ren Beobachtungsphasen; (3) Verzogerung des feedbacks iiber Beobachtungs- 
ergebnisse an die Beobachteten. Auch unter sonst gleichen Beobachtungsbe- 
dingungen und an den gleichen beobachteten Personen kann man offensicht- 
lich nicht bei alien Variablen in gleichem AusmaB Reaktivitat erwarten (Ro- 
berts & Renzagha 1965). 

Beirn typisch experimentellen Vorgehen interagieren in der Regel nur Ver- 
suchsperson und Experimentator, der oft mit dem Forscher identisch ist. 
Wenn jedoch Beobachter und Forscher nicht identisch sind, etwa wenn Eltern 
iiber ihre Problemkinder berichten sollen, kann sich Reaktivitat nicht nur im 
Verhalten der Beobachteten zeigen und i. w. S. auch beim Forscher, sondern 
auch beim Beobachter. Johnson & Lobitz (1974) analysieren diese Beobach- 
tungssituation mit Hilfe des Konzeptes der demand characteristic: Welche 
spezifischen Situationsmerkmale ergeben sich fiir alle Personen in einer Situa- 
tion mit einern Beobachter aus dessen Anwesenheit? Johnson & Lobitz neh- 
men beispielsweise fiir Eltern an, die ihr Kind als therapiebediirftig beschrie- 
ben haben, fiir sie ergabe sich bei der Beobachtung in der Familie vielleicht 
unbewuBt der Wunsch, ihr Kind tatsachlich als problematisch erscheinen zu 
lassen. Die Autoren baten Eltern in Familien ohne Problemkinder, ihre Kinder 
entweder als ,,brav“ oder als ,,ungezogen“ erscheinen zu lassen. Johnson & 
Lobitz konnten entsprechende Unterschiede im Verhalten von Eltern und 
Kindern nachweisen und argumentieren, wenn es unterschiedliche demand 
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characteristics gabe, seien Personen in der Lage, darauf unterschiedlich zu 
reagieren und somit die Validitat von Beobachtungen zu gefahrden. 

Im letzten Jahrzehnt hat man sich besonders um Techniken, aber auch urn 
Versuchsplane bemiiht, die eindeutige Schlilsse ilber Reaktivitat zulassen. Die 
Verwendung von Kleinst(radio)sendern wurde mehrfach untersucht, z.B. von 
Moos (1968) an psychiatrischen Patienten. Moos verglich das Verhalten bei 
eingeschaltetem und bei ausgeschaltetem Sender. Insgesamt zeigte sich wenig 
Reaktivitat. ihr AusmaB war jedoch abhangig von der jeweiligen Situation und 
zeigte sich starker bei den starker gestorten Patienten. Johnson & Bolstad 
(1975) schnitten die Interaktion von Familienmitgliedern auf Tonband mit und 
fanden keine Unterschiede bei Anwesenheit oder Abwesenheit eines externen 
Beobachters. Goldfried & Linehan (1977) wenden in ihrem hier zugrundege- 
legten iiberblick gegen beide Studien das Fehlen einer Kontrollgruppe ein, die 
eindeutig nicht beobachtet wurde, zumindest nach Meinung der betroffenen 
Vpn. In der Studie von Moos wuBten die Vpn. daB sie auch dann beobachtet 
wurden, wenn sie den Sender nicht trugen, und in der Untersuchung von 
Johnson & Bolstad lief das Tonband auch dann, wenn kein Beobachter anwe- 
send war. Diesen Einwand berilcksichtigen - vielleicht ethisch bedenklich - 
Hagen et al. (1975). Sie arbeiteten mit einem verborgenen Mikrophon, das 
standig die Interaktion von Personal und Patienten aufnahm, und verglichen 
das Verhalten bei An- und Abwesenheit eines Beobachters, ohne Unterschiede 
zu finden. Diesen Versuchsplan entwickelten Johnson et al. (1976) weiter. die 
Kinder mit einem Sender versahen, der das verbale Verhalten auf Tonband 
iibertrug. Das Tonband wurde nach einem time sampling Schema ein- und 
ausgeschaltet. das weder deni Kind noch den iibrigen Familienmitgliedern 
bekannt war. 

Wahrend die Daten externer Beobachter beim behavior assessment kaurn 
durch Reaktivitat beeinfluBt zu werden scheinen. sind Reaktivitatseffekte bei 
Selbstberichten so stark - sie reduzieren meistens die problematische Verhal- 
tensweise - daB self monitoring inzwischen regelmaBig, wie Goldfried & 
Linehan berichten, als therapeutische Technik eingesetzt wird. Erklart wird 
dies damit, daB der Selbstbericht zu einem Spezialfall von feedback wird, das 
das Verhalten andert. Statt auf feedback legen Ciminero et al. (1977, p. 208) 
mehr Wert auf die Tatsache, daB ,,. . . the presence of an observer alters the 

usual stimulus situation, thereby producing behavior changes" und ,,. . . when 

an individual begins to self-observe his own behavior, there is also a change in 

the usual stimulus situation." Es ware interessant zu erfahren, worin genau die 

Veranderung besteht, und warum sie in beiden Situationstypen so verschieden 
ist, daB so starke Unterschiede in der Reaktivitat auftreten. 

Ciminero et al. geben einen Uberblick ilber verschiedene Versuchsplane, die 
zur Analyse von Reaktivitat bei Selbstberichten verwendet wurden. Als Bei- 
spiel fur eine Einzelfallstudie sei die Arbeit von Maletzky (1974) erwahnt: 
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Fttnf Patienten beobachteten ihr storendes Verhalten, das wahrend der Selbst- 
beobachtung zurilckging. Eine Unterbrechung des Selbstberichtens lies die 
Frequenz wieder steigen; erneute Selbstbeobachtung fiihrte zu weiterem Ab- 
fall der Haufigkeit. Wie in anderen Untersuchungen dieser Art fehlt auch bei 
Maletzky eine Angabe zur VerlaBlichkeit der Selbstbeobachtung. Diese lassen 
sich in einer Studie von Herbert & Baer (1972) aus den Angaben externer 
Beobachter in den Familien der untersuchten Mutter und Kinder gewinnen, 
die dadurch zu eineni within- subject experimental design wurde, daB eine 
Umkehrphase (reversal) eingeftihrt wurde, in der die Registrierung des eigenen 
Verhaltens durch die Mutter unterbrochen wurde. Einen Vergleich zwischen 
verschiedenen Vpn, also ein between-subjects experimental design finden wir 
in der Arbeit von Johnson & White (1971). Sie untersuchten drei Gruppen von 
College-Studenten. Die erste Gruppe beobachtete selbst ihre Studienaktivita- 
ten. die zweite ihre Zeit, die sie mit Freundinnen verbrachten, die dritte Grup- 
pe wurde nicht zu Selbstberichten angehalten. Abhangige Variable war die 
wochentlich erhobene Benotung der Studienleistung. Darin zeigten sich signi- 
fikante Unterschiede zwischen der ersten und dritten Gruppe zugunsten der 
ersten, wahrend sich die zweite Gruppe nicht uberzufallig von den beiden 
anderen unterschied. Das Erstellen von Selbstberichten iiber eine bestimmte 
Verhaltensweise (dating) kann demnach auch zu Effekten auf eine andere Ver- 
haltensweise (Studiengewohnheiten) ftihren, also generalisieren, und dann die 
abhangige Variable indirekt beeinflussen. 

Die Starke der Reaktivitat hangt von der Bewertung des beobachteten Verhal- 
tens und der Motivation, es zu andern ab: Wil'd das Verhalten positiv einge- 
schatzt, steigt seine Frequenz. bei negativer Bewertung sinkt sie (Broden et al. 
1971. Kazdin 1974, Cavior & Marabotto 1976). Kanfer (1970) erklart die 
Wirkung der Reaktivitat als einen ProzeB mit drei Stadien: Im ersten Schritt 
erfolgt die Selbstbeobachtung, im zweiten bewertet die Person selbst ihr Ver- 
halten nach ihren eigenen Normen, danach flihrt im dritten Schritt eine positi- 
ve Bewertung zum Anstieg, die negative zum Abfall der Auftretenshaufigkeit. 
Diese von Ciminero et al. als ..mediational explanation 11 - wegen der Vermitt- 
lung iiber die Bewertung - bezeichnete Erklarung wird von ihnen mit der 
,, operant explanation 11 von Rachlin (1974) kontrastiert. Nach Rachlin haben 
die Folgen, die man sich selbst verschafft, nicht die Funktion von Verstarkern, 
sondern von Hinweisreizen. Diese Hinweisreize wirken als Signale fur das, 
was schlieBlich an externen Konsequenzen zu erwarten sei, wenn man sich auf 
ein bestimmtes Verhalten einlaBt. Selbstberichte von eigenem Verhalten 
schlosse dann tendenziell zumindest auch Beobachten der Folgen dieses eige- 
nen Verhaltens mit ein. 
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3.5.3 Einfltisse bestehender Erwartungen der Beobachter 

Einige der in den voraufgegangenen Abschnitten geschilderten Ergebnisse las- 
sen sich integrieren, wenn man annimmt, daB Beobachter Erwartungen ent- 
wickeln, denen sie sich in ihrem Beurteilungsverhalten anpassen. Kent & Fo- 
ster (1977) bezeichnen die Kovariation von geauBerter Erwartung liber ver- 
mutlich auftretendes Verhalten und vom gleichen Beobachter berichtetem Ver- 
halten als expectation bias (auch als Rosenthal-Effekt bekannt). Die Erwartun- 
gen der Beobachter beziehen sich unter anderem auf Art und Auspragung des 
vermutlich auftretenden Verhaltens der zu beobachtenden Personen, auf Beur- 
teilungsverhalten etwaiger Mitbeobachter und auf Kontrollverhalten der For- 
scher. Tritt hohere Verhaltensvariation des Beobachtungsobjektes auf als die 
Beobachter erwarten, oder zeigt sich das zu Beobachtende in einer fur den 
Beobachter neuen Umgebung, so konnten Kategoriensystem und Beobach- 
tungsinstruktion neu interpretiert werden miissen (was die hierbei gefunde- 
nen, vorubergehenden Reliabiliatsverminderungen erklaren kann). Lernt der 
Beobachter, was er von Mitbeobachtern zu erwarten hat, so kann er sich 
anpassen, was zu der meist erwtinschten Steigerung der Ubereinstimmung 
ftthrt. Auf Motivation, Aufmerksamkeit und Konzentration schlieBlich wirkt 
eine Kontrollerwartung zugunsten verbesserter VerlaBlichkeit, wahrend die 
oft erhohten Anforderungen an Gedachtnis, Aufmerksamkeit und ahnlichen 
kognitiven Leistungen, welche die Einsatzsituation oft kennzeichnen, auch die 
VerlaBlichkeit der Beobachtungen beeintrachtigen konnen. 

Schon 1961, vor Rosenthal also, zeigten Azrin et al., daB Beurteilungen, die 
Beobachter iiber MeinungsauBerungen abgaben, mit ihren Erwartungen syste- 
matisch variierten, welche Meinung von den Vpn geauBert werden wlirde. Auf 
welche Schwierigkeiten Studien zum Rosenthal-Effekt stoBen, wird aus der 
Dissertation von Kent (1972, hier nach Kent & Foster 1977) deutlich: Zu- 
nachst wurden alle 40 Vpn gemeinsam geschult, und zwar 40 Stunden lang, 
verteilt tiber eine Periode von filnf Wochen anhand von Aufzeichnungen mit 
Videotape. Wie sich zeigt, ist gemeinsame Schulung wichtig. um nicht zu 
Unterschieden zwischen den Beobachtern zu kommen, die schon vor ihrer 
Zuteilung zu Versuchsbedingungen bestehen und Vergleiche zwischen den 
Versuchsbedingungen konfundieren. Gegen Ende der Schulung stellte sich 
heraus, daB sich die Ubereinstimmung von r = 0,60 zwischen den Beobach- 
tern nicht rnehr verbessern lieB - zur Berechnung wurde jeder Beobachter mit 
einem aus den ubrigen 39 zufallig herausgegriffenen verglichen. Danach wur- 
den die Beobachter in zufalligen Gruppen zu je 5 Personen den 8 Versuchsbe- 
dingungen mit unterschiedlichen Ergebniserwartungen zugeteilt. Schon nach 
drei Tagen stieg die mittlere VerlaBlichkeit innerhalb dieser Fiinfergruppe auf 
0,7. Zugleich entwickelten sich, und zwar vor jeder experimentellen Variation 
Unterschiede zwischen den Gruppen. Dieser Effekt wurde als ,, consensual 
observer drift” (s. Johnson & Bolstad 1975) bezeichnet und fiihrt Kent & 
Foster (1977, S. 283) zu der Warnung: 
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any study in which groups of observers collect data only within a particular class- 
room or treatment condition may badly confound differences in use of the behavioral 
code with the variables under investigation." 

Uni Schwierigkeiten mit Vortreatment-Unterschieden auszuraumen, gingen 
Kent et al. (1974) so vor: Zehn Paare von Beobachtern (undergraduates) wur- 
den so lange trainiert, bis jeder mit seinem Partner hinreichend hohe Uberein- 
stimmung zeigte. Dann wurde at random je ein Mitglied eines Paares einer der 
beiden Versuchsbedingungen zugeteilt und beobachtete getrennt Videotapes, 
die angeblich teils das storende Verhalten eines Kindes vor. teils wahrend der 
Behandlung zeigten. Der Versuchsleiter in der einen Experimentalbedingung 
informierte die Beobachter dahingehend, das Storverhalten werde wahrend der 
Behandlung abnehmen, wahrend in der anderen Bedingung - wahrheitsge- 
maB - informiert wurde, es werde sich keine Anderung zeigen. In der Aus- 
wertung ergab eine globale Frage, ob Veranderung eingetreten sei, den Ro- 
senthal-Effekt; wertete man jedoch die detaillierten Verhaltensprotokolle zu 
neun operational definierten Kategorien aus, so zeigten sich keine erwartungs- 
bedingten Unterschiede. Kent & Foster halten es fur moglich, daB Erwar- 
tungseffekte insbesondere bei globalen Bewertungen, nicht jedoch bei spezifi- 
schen Verhaltensbeschreibungen auftreten. Allerdings zeigten sich in einer 
Studie von O'Leary et al. (1975) auch bei relativ explizit definierten Kategorien 
Effekte von AuBerungen von Versuchsleitern, die eine Erwartung bewirken 
sollten. 



Literatur 

Ach, N. 1905. iiber die Willenstatigkeit und das Denken. Gottingen: Vandenhoeck & 
Ruprecht. 

Adair, J. & Spinner, B. 1979. Subjects’ access to cognitive processes: Demand charac- 
teristics and verbal report. Unpublished manuscript, University Manitoba. 

Azrin, N. H., Holz, W., Ulrich, R. & Goldiamond, I. 1961. The control of the 
content of conversation through reinforcement. Journal of experimental analysis 
of behavior, 4 , 25-30. 

Bacon, F. 1974. Neues Organ der Wissenschaften (1620). (Dtsch. von A. T.Bruck). 
Darmstadt: Wissenschaftliche Buchgesellschaft. 

Bakan, D. 1959. A reconsideration of the problem of introspection. Psychological 
Bulletin, 51 , 105-118. 

Barker, R. 1968. Ecological psychology: concepts and methods for studying the envi- 
ronment of human behavior. Stanford: Stanford Univ.Press. 

Barker, R. & Schoggen, P. 1973. Qualities of community life. San Francisco: Jossey- 
Bass. 




Beobachtung und Beschreibung von Erleben und Verhalten 



125 



Bern, D. J. 1965. An experimental analysis of self-persuasion. Journal of Experimental 
Social Psychology, 1, 199-218. 

Bern, D. J. 1966. Inducing belief in false confessions. Journal of Personality and Social 
Psychology, 3, 707-710. 

Bern, D. J. 1972. Self-perception theory. In: Berkowitz, L. (ed.): Advances in experi- 
mental social psychology. Vol.6, New York: Academic Press, 1-62. 

Berman, J. S. & Kenny, D. A. 1976. Correlational bias in observer ratings. Journal of 
Personality and Social Psychology, 34, 263-273. 

Berman, J. S. & Kenny, D. A. 1977. Correlational bias: Not gone and not to be 
forgotten. Journal of Personality and Social Psychology, 35, 882-887. 

Birdwhistell, R. L. 1970. Kinesics and context. Philadelphia: Univ. of Philadelphia 
Press. 

Block, J. 1977. Correlational bias in observer ratings: Another perspective on the 
Berman and Kenny study. Journal of Personality and Social Psychology, 35, 
873-880. 

Blumenthal, A. L. 1975. A reappraisal of Wilhelm Wundt: American Psychologist, 30, 
1081-1088. 

Borgatta, E. F„ Cottrell, L. S. & Mann, J. H. 1958. The spectrum of individual 
interaction characteristics: An inter-dimensional analysis. Psychological Reports, 
4, 279-319. 

Braun, P. 1978. Verhaltenstherapeutische Diagnostik. In: L. Pongratz (ed.): Klinische 
Psychologie (Handbuch der Psychologie. Bd. 8/2). Gottingen: Hogrefe, 
1649-1725. 

Broden, M Hall, R. V. & M itts, B. 1971. The effect of self-recording on the class- 
room behavior of two eighth-grade students. Journal of Applied Behavior Analy- 
sis, 4, 191-199. 

Brown, A. L. 1978. Knowing when, where, and how to remember: A problem of 
metacognition. In: R. Clark (ed.): Advances in instructional psychology, Vol. I. 
Hillsdale, N.J.: Erlbaum. 

Bruner, J. S. & Tagiuri, R. 1954. The perception of people. In: Lindzey, G. (ed.): 
Handbook of social psychology. Vol.2, Cambridge, Mass.: Addison-Wesley, 
634-654. 

Brunswik, E. 1952. The conceptual framework of psychology. International Encyc- 
lopedia of Unified Science, 1, No. 10. 

Brunswik, E. 1955. Representative design and probabilistic theory in afunctional 
psychology. Psychological Review, 62, 193-217. 

Brunswik, E. 1956. Perception and the representative design of experiments. Berkeley: 
Univ. of California Press. 

Castellan, N. J., Jr. 1973. Comments on the Jens model" equation and the analysis of 
multiple-tue judgment tasks. Psychometrika, 38, 87-100. 

Cattell, R. B. 1957. Personality and motivation: Structure and measurement. Yonkers, 
N. Y.: World Book. 




126 



Hubert Feger und Carl F. Graumann 



Cavanaugh, J. C. & Perlmutter, M. 1980. Metamemory - a critical examination. 
Unpublished paper (draft). Institute of Child Development. University of Min- 
nesota. 

Cavior, N. & Marabotto, C. 1976. Monitoring verbal behaviors in dyadic interaction. 
Journal of Consulting and Clinical Psychology, 44, 68-76. 

Chapman, L. J. & Chapman, J. P. 1967. The genesis of popular but erroneous 
psychodiagnostic observations. Journal of Abnormal Psychology, 72, 193-204. 

Chapman, L.J. & Chapman, J. P. 1969. Illusory correlation as an obstacle to the use of 
valid psychodiagnostic signs. Journal of Abnormal Psychology, 74, 271-280. 

Chi, P. L. 1937. Statistical analysis of personality. Journal of Experimental Education. 
5, 229-245. 

Ciminero, A. R. 1977. Behavioral assessment: An overview. In: Ciminero, A. R„ 
Calhoun, K. S. & Adams, H. E. (eds): Handbook of behavioral assessment. New 
York: Wiley, 3-13. 

Ciminero, A. R„ Nelson, R. O. & Lipinski, D. P. 1977. Self-monitoring procedures. 
In: Ciminero, A. R„ Calhoun, K. S. & Adams, H . E. (eds): Handbook of behav- 
ioral assessment. New York: Wiley, 195-232. 

Claparede, E. 1965. Die Entdeckung der Hypothese. In: C. F. Graumann (ed.): Den- 
ken. Koln: Kiepenheuer & Witsch, 109-115. 

Cohen, R. 1971. An investigation of the diagnostic processing of contradictory infor- 
mation. European Journal of Social Psychology, 1, 475-492. 

Cohen, R. & Schumer, R. 1968. Eine Untersuchung zur sozialen Urteilsbildung. I. Die 
Verarbeitung von Informationen unterschiedlicher Konsonanz. Archiv fur die 
gesamte Psychologie, 120, 151-179. 

Comte, A. 1949. Cours dephilosophie positive (1830-1842). 2 Bande. Paris: Gamier. 

Coombs, C. H„ Dawes, R. M. & Tversky, A. 1970. Mathematical Psychology. Eng- 
lewood Cliffs, N.J.: Prentice-Hall. 

Cronbach, L. J. 1955. Processes affecting scores of ..understanding of others" and 
..assumed Similarity"Psychological Bulletin, 52, 177 — 193. 

D'Andrade, R. G. 1965. Trait psychology and componential analysis. American An- 
thropologist. 67, 215-228. 

D'Andrade, R. G. 1974. Memory and the assessment of behavior. In: Blalock, H . M . 
Jr. (ed.): Measurement in the social sciences. Chicago: Aldine, 159-186. 

Danziger, K. 1980. The history of introspection reconsidered. Journal of the H istory 
of the Behavioral Sciences, 16, 241-262. 

Dorner, D. 1974. DiekognitiveOrganisation beim Problemlosen. Bern: Huber. 

Duncan, S. 1969. Nonverbal communication. Psychological Bulletin, 72, 118-137. 

Duncker, K. 1926. A qualitative (experimental and theoretical) study of productive 
thinking (solving of comprehensible problems). The Pedagogical Seminary and 
Journal of Genetic Psychology, 33, 642-708. 

Duncker, K. 1966. Zur Psychologie des produktiven Denkens (1935). Berlin: Springer. 




Beobachtung und Beschreibung von Erleben und Verhalten 



127 



Egan, J. P. 1975. Signal detection theory and ROC analysis. New York: Academic 
Press. 

Ericsson, K. A. & Simon, H. A. 1980. Verbal reports as data. Psychological Review, 

37 , 215 - 251 . 

Feger, H. 1972. Skalierte Informationsmenge und Eindrucksurteil. Bern: Huber. 

Feger, H . & Feger, B. 1969 (a). Beitrage zur inhaltsanalytischen U ntersuchung von 
Entscheidungen. Teil I: Methode und Vergleich der Materialstichproben. Archiv 
fur diegesamte Psychologie, 121, 205-232. 

Feger, H. & Feger, B. 1969(b). Beitrage zur inhaltsanalytischen Untersuchung von 
Entscheidungen. Teil II: Kontingenzanalyse und Paralleluntersuchung. Archiv fur 
die gesamte Psychologie, 121, 233-254. 

Finke, R. A. & Kosslyn, S. M. 1980. Mental imagery acuity in the peripheral visual 
field. Journal of Experimental Psychology: Human Perception and Performance, 
6 , 126 - 139 . 

Fixen, D. L„ Phillips, E. L. & Wolf, M .M . 1972. Achievement place: The reliability of 
self-reporting and peer-reporting and their effects on behavior. Journal of Applied 
Behavior Analysis, 5, 19-30. 

Flavel I , J . H. 1976. Metacognitive aspects of problem-solving. In: L. B. Resnick (ed.): 
The nature of intelligence. Hillsdale, N . J.: Erlbaum. 

Flavell, J . H . 1979. Monitoring social-cognitive enterprises: Something else that may 
develop in the area of social cognition. Paper presented for the Social Science 
Research Council Committee on Social and Affective Development During Child- 
hood, January. 

Gibson, J. J. 1950. The perception of the visual world. Boston: Houghton Mifflin, 
(Deutsch: Die Wahmehmung der visuellen Welt. Weinheim: Beltz, 1973). 

Giorgi. A. 1967. A phenomenological approach to the problem of meaning and social 
learning. Review of Existential Psychology and Psychiatry, 7, 106-118. 

Goldfried, M. R. & Kent, R. N. 1972. Traditional versus behavioral assessment: A 
comparison of methodological and theoretical assumptions. Psychological Bulle- 
tin, 77, 409-420. 

Goldfried, M . R. & Linehan, M . M . 1977. Basic issues in behavioral assessment. In: 
Ciminero, A. R„ Calhoun, K. S. & Adams, H . E. (eds): Handbook of behavioral 
assessment. New York: Wiley, 15-46. 

Graumann, C. F. 1966. BewuBtsein und BewuBtheit - Probleme und Befunde der 
psychologischen BewuBtseinsforschung. In: W. Metzger (ed.): Wahrnehmung 
und BewuBtsein (Handbuch der Psychologie, 1, 1). Gottingen: Hogrefe, 79-127. 

Graumann, C. F. 1978. Wahrnehmung und Beurteilung der anderen und der eigenen 
Person. In: A. Heigl-Evers (ed.): Lewin und die Folgen (Die Psychologie des 20. 
Jahrhunderts, Bd. VIII). Zurich: Kindler, 154-183. 

Graumann, C. F. 1980. Experiment, Statistik, Geschichte - Wundts erstes Heidel- 
berger Programm einer Psychologie. Psychologische Rundschau, 31, 73-83 




128 



Hubert Feger und Carl F. Graumann 



(Auch in: W. G. Bringmann & R. D. Tweney (eds): Wundt Studies. Toronto: 
Hogrefe, 1980, 33-41). 

Greeno, J. G. 1968. Elementary theoretical psychology. Reading, Mass.: Addison- 
Wesley. 

Grumer, K.-W. 1974. Beobachtung. Stuttgart: Teubner (Studienskripten). 

Guilford, J. P. 1954. Psychometric methods. New York: McGraw-Hill, (2. Aufl.). 

Gulliksen, H . 1950. Theory of mental tests. New York: Wiley. 

Gulliksen, H. 1968. Methods for determining equivalence of measures. Psychological 
Bulletin, 70, 534-544. 

Gurwitsch, A. 1966. Studies in phenomenology and psychology. Evanston, III.: 
Northwestern. 

Hagen, R. L„ Craighead, W. E. & Paul, G. L. 1975. Staff reactivity to evaluative 
behavioral observations. Behavior Therapy, 6, 201-205. 

Hart, J. T. 1965. Memory and the feel ing-of-knowing experience. Journal of Educa- 
tional Psychology, 56, 208-216. 

HartJ.T. 1966. Methodological note on feel ing-of-knowing experiments. Journal of 
Educational Psychology, 57, 347-349. 

Hart, J. T. 1967. Second-try recall, recognition, and the memory-monitoring process. 
Journal of Educational Psychology, 58, 193-197. 

Herbert, E. W. & Baer, D. M. 1972. Training parents as behavior modifiers: Self- 
recording of contingent attention. Journal of Applied Behavioral Analysis, 5, 
139-149. 

Holzkamp, K. 1980. Zu Wundts Kritik an der experimentellen Erforschung des Den- 
kens. In: Wilhelm Wundt - Progressives Erbe, Wissenschaftsentwicklung und 
Gegenwart. Leipzig: Karl-Marx-Universitat, 141-153. 

Ingleby, J. D. 1974. Further studies of the human observer as a statistical decision 
maker. Organizational Behavior and H uman Performance, 12, 299-314. 

James, W. 1950. The principles of psychology. 2 vols. (1890). New York: Dover. 

Johnson, D. M. 1963. Reanalysis of experimental halo effects. Journal of Applied 
Psychology, 47, 46-47. 

Johnson, S. M . & Bolstad, O. D. 1975. Reactivity to home observation: A comparison 
of audio recorded behavior with observers present or absent. Journal of Applied 
Behavioral Analysis, 8, 181-185. 

Johnson, S. M. & Lobitz, G. K. 1974. Parental manipulations of child behavior in 
home observations. Journal of Applied Behavior Analysis, 7, 23-32. 

Johnson, S. M . & White, G. 1971. Self-observation as an agent of behavioral change. 
Behavior Therapy, 2, 488-497. 

Johnson, S. M„ Christensen, A. & Bellamy, G. T. 1976. Evaluation of family interven- 
tion through unobtrusive audio recordings: Experiences in bugging children. 
Journal of Applied Behavioral Analysis, 9, 213-219. 




Beobachtung und Beschreibung von Erleben und Verhalten 



129 



Jones, R. R., Reid,J. B. & Patterson, G. R. 1975. Naturalistic observation in clinical 
assessment. In: McReynolds, P. (ed.): Advances in psychological assessment. Vol. 
3. San Francisco: Jossey-Bass, 42-95. 

Kanfer, F. H. 1970. Self-monitoring: Methodological limitations and clinical applica- 
tions. Journal of Consulting and Clinical Psychology, 35, 148-152. 

Kanfer, F. H. 1975. Self-management methods. In: F. H. Kanfer & A. P. Goldstein, 
H el pi ng People Change. New York: Pergamon. 

Kant, I. 1800. Anthropologie in pragmatischer H i nsicht. 2. Aufl. Konigsberg: 
Nicolovius. 

Kant, I. 1903. Metaphysische Anfangsgrunde der Naturwissenschaft (1786). In: I. 
Kant: Gesammelte Schriften, Bd. 4. Berlin: Reimer. 

Katz, D. 1911. Die Erscheinungsweisen der Farben und ihre Beeinflussung durch die 
individuelle Erfahrung. Zeitschrift fur Psychologie, Erg.band 7. 

Katz, D. 1929. Der Aufbau derTastwelt. Zeitschrift fur Psychologie, Erg.band 11. 

Kazdin, A. E. 1974. Reactive self-monitoring: The effects of response desirability, goal 
setting, and feedback. Journal of Consulting and Clinical Psychology, 42, 
704 - 716 . 

Kent, R. N. 1972. Expectancy bias in behavioral observation. Unpubl. docdiss., State 
Univ. of New York, Stony Brook, New York. 

Kent, R. N. & Foster, S. L. 1977. Direct observational procedures: Methodological 
issues in naturalistic settings. In: Ciminero, A. R„ Calhoun, K. S. & Adams, FI . 
E. (eds): Flandbook of behavioral assessment. New York: Wiley, 279-328. 

Kent, R. N„ O'Leary, K. D„ Diament, C. & Dietz, A. 1974. Expectation biases in 
observational evaluation of therapy change. Journal of Consulting and Clinical 
Psychology, 42, 774-780. 

Kohler, W. 1921. Intelligenzprufungen an Menschenaffen. Berlin: Springer. 

LachmanJ. L. & Lachman, R. 1980. Age and the actualization of world knowledge. 
In: L. W. Poon et al. (eds): New directions in memory and aging. H illsdale, N.J.: 
Erlbaum, 285-313. 

Lambert, W. W. 1960. Interpersonal behavior. In: Mussen, P. H. (ed.): Methods in 
child development. New York: Wiley. 

Lay, C. H. & Jackson, D. N. 1969. Analysis of the generality of traitinferential 
relationship. Journal of Personality and Social Psychology, 12, 12-21. 

Lieberman, D. A. 1979. A (limited) call for a return to introspection. American Psy- 
chologist, 34, 319-333. 

Linschoten, J. 1959. Op weg naar een fenomenologische psychologie. Utrecht: Bij- 
leveld, (ubers. von F. Monks: Auf dem Wege zu einer phanomenologischen 
Psychologie. Berlin: deGruyter, 1961). 

Lipinski, D. P. & Nelson, R. 0. 1974. The reactivity and unreliability of self-record- 
ing. Journal of Consulting and Clinical Psychology, 42, 118-123. 

Lipinski, D. P„ Black, J. L„ Nelson, R. O. & Ciminero, A. R. 1975. The influence of 




130 



Hubert Feger und Carl F. Graumann 



motivational variables on the reactivity and reliability of self-recording. Journal of 
Consulting and Clinical Psychology, 43, 637-646. 

Longabaugh, R. 1980. The systematic observation of behavior in naturalistic settings. 

I n: T riandis, H. C. & Berry, J. W. (eds): Handbook of cross-cultural psychology. 
Vol. 2: Methodology. Boston: Allyn & Bacon, 57-126. 

Lorr, M. & McNair, D. M. 1965. Expansion of the interpersonal behavior circle. 
Journal of Personality and Social Psychology, 2, 823-830. 

Luer, G. 1973. GesetzmaRige Denkablaufe beim Problemlosen. Weinheim: Beltz. 

Maletzky, B. M. 1974. Behavior recording as treatment: A brief note. Behavior 
Therapy, 5, 107-111. 

Mann, R. D. 1959. The relation between personality characteristics and individual 
performance in small groups. Ph. D. dissertation, Univ. of Michigan. 

Mash, E.J. & McElweeJ. D. 1974. Situational effects on observer accuracy: Behavior 
predictability, prior experience, and complexity of coding categorie. Child Devel- 
opment, 45, 367-377. 

Mash, L.J. & Makohoniuk, G. 1975. The effects of prior information and behavioral 
predictability on observer accuracy. Child Development, 46, 513-519. 

McN icol, D. 1972. A primer of signal detection theory. London: Allen & Unwin. 

Meichenbaum, D„ Burland, S„ Gruson, L. & Cameron, R. 1979. Metacognitive as- 
sessment. Paper presented at the Conference on the Growth of Insight. Wisconsin 
Research and Development Center, October. 

Meichenbaum, D. & Butler, L. 1980. Cognitive ethology: Assessing the streams of 
cognition and emotion. In: K. Blankstein, P. Pliner & J. Polivy (eds): Advances in 
the study of communication and affect: Assessment and modification of emotional 
behavior. Vol. 6. New York: Plenum. 

Metge, Anneros, 1980. Zum Problem der Selbstbeobachtung bei Wundt. In: Wilhelm 
Wundt - Progressives Erbe. Wissenschaftsentwicklung und Gegenwart. Leipzig: 
Karl-Marx-Universitat, 183-190. 

Metzger, W. 1954. Psychologie. 2. Aufl. Darmstadt: Steinkopf. 

Mitchell, D. B. & Richman, C. L. 1980. Confirmed reservations: Mental travel. Jour- 
nal of Experimental Psychology: Human Perception and Performance, 6, 58-66. 

Moos, R. H . 1968. Behavioral effects of being observed: Reactions to a wireless radio 
transmitter. Journal of Consulting and Clinical Psychology, 32, 383-388. 

Mulaik, A. 1964. Are personality factors rater's conceptual factors? Journal of Consult- 
ing Psychology, 28, 506-511. 

Natsoulas, T. 1970. Concerning introspective knowledge'. Psychological Bulletin, 73, 
89 - 111 . 

Natsoulas, T. 1978. Residual subjectivity. American Psychologist, 33, 269-283. 

Nelson, R. 0., Lipinski, D. P. & Black, J. L. 1975. The effects of expectancy on the 
reactivity of self-recording. Behavior Therapy, 6, 337-349. 




Beobachtung und Beschreibung von Erleben und Verhalten 



131 



Newcomb, T. M . 1931. An experimental design to test the validity of a rating tech- 
nique. Journal of Educational Psychology, 22, 279-289. 

Newtson, D. 1973. Attribution and the unit of perception of ongoing behavior. Journal 
of Personality and Social Psychology, 28, 28-38. 

Newtson, D. 1976. Foundations of attribution: The unit of perception of ongoing 
behavior. In: Harvey, J„ Ickes, W. & Kidd, R. (eds): New directions in attribu- 
tion research. Hillsdale, N.J.: Erlbaum, 223-247. 

Newtson, D. & Engquist, G. 1976. The perceptual organization of ongoing behavior. 
Journal of Experimental Social Psychology, 12 , 436-450. 

Newtson, D. & Rindner, R. J. 1979. Variation in behavior perception and ability 
attribution. Journal of Personality and Social Psychology, 37, 1847-1858. 

Newtson, D„ Engquist, G. & Bois, J. 1977. The objective basis of behavior units. 
Journal of Personality and Social Psychology, 35, 847-862. 

Nisbett, R. E. & Wilson, T. D. 1977. Telling more than wecan know: Verbal reports 
on mental processes. Psychological Review, 84, 231-259. 

NuttinJ. 1955. Consciousness, behavior, and personality. Psychological Review, 62, 

349-355. 

O'Leary, K. D„ Kent, R. N. & Kanowitz, J. 1975. Shaping data collection congruent 
with experimental hypotheses. Journal of Applied Behavior Analysis, 8, 43-51. 

Passini, F. T. & Norman, W. T. 1966. A universal conception of personality structure? 
Journal of Personality and Social Psychology, 4, 44-49. 

Pastore, R. E. & Scheirer, C. J. 1974. Signal detection theory: Considerations for 
general application. Psychological Bulletin, 81, 945-958. 

Peterson, D. R. 1968. The clinical study of social behavior. New York: Appleton- 
Century-Crofts. 

Peterson, W. W., Birdsall, T. G. & Fox, W. C. 1954. The theory of Signal detectabili- 
ty. Institute of Radio Engineers Transactions, PGIT-4, 171-212. 

Pilkington, C. W. & Glasgow, W. D. 1967. Towards a rehabilitation of introspection 
as a method in psychology. Journal of Existentialism, 7, 329-350. 

Podgorny, P. & Shepard, R. N. 1978. Functional representations common to visual 
perception and imagination. Journal of Experimental Psychology: Human Per- 
ception and Performance, 4, 21-35. 

Postman, L. & Tolman, E. C. 1959. Brunswik's probabilistic functional ism. In: Koch, 
S. (ed.): Psychology: A study of a science. Vol. I. New York: McGraw-Hill, 
502-564. 

Price, R. H. 1966. Signal detection methods in personality and perception. Psychologi- 
cal Bulletin, 66, 55-62. 

Rachlin, H. 1974. Self-control. Behaviorism, 2, 94-107. 

Radford, J. 1974. Reflections on introspection. American Psychologist, 29, 245-250. 

Redfield, J. & Paul, G. L. 1976. Bias in behavioral observation as a function of observer 




132 



Hubert Feger und Carl F. Graumann 



familiarity with subjects and typicality of behavior. Journal of Consulting and 
Clinical Psychology, 44, 156. 

Reid, J. B. 1970. Reliability assessment of observational data: A possible methodologi- 
cal problem. Child Development, 41, 1143-1150. 

Richardson, J. T. E. 1980. Mental imagery and human memory. London: Macmillan. 

Roberts, R. R. Jr. & Renzaglia, G. A. 1905. The influence of tape recording on 
counseling. Journal of Counseling Psychology, 12, 10-16. 

Rohracher, H . 1963. Einfuhrung in diePsychologie. 8. Aufl. Wien: Urban & Schwar- 
zenberg. 

Romanczyk, R. G., Kent, R. N„ Diament, C. & O'Leary, K. D. 1973. Measuring the 
reliability of observational data: A reactive process. Journal of Applied Behavior 
Analysis, 6, 175-184. 

Rosenthal, R. 1976. Experimenter effects in behavioral research. New York: Appleton- 
Century-Crofts, 1966; enlarged edition: New York: Irvington Publ. 

Rosenthal, R. & Rosnow, R. L. (eds) 1969. Artifact in behavioral research. New York: 
Academic Press. 

Rudinger, G. & Feger, H . 1970. Die Beurteilung formaler Personlichkeitsmerkmale 
durch Rating-Skalen: Eine Generalisierbarkeitsstudie. Zeitschrift fur Entwick- 
lungspsychologie und Padagogische Psychologie, 2, 96-112. 

Rugg, H . 1922. Is the rating of human Character practicable? Journal of Educational 
Psychology, 13, 30-42. 

Schapp, W. 1976. Beitrage zur Phanomenologie der Wahrnehmung. Wiesbaden: Hey- 
mann. 

Scheflen, A. E. 1975. How behavior means. New York: Aronson. 

Schumer, R. 1971. Eine experimentelle Untersuchung zur sozialen Eindrucksbildung. 
Zeitschrift fur Sozial psychologie, 2, 92-108. 

Shepard, R. N. 1978. The mental image. American Psychologist, 33, 125-137. 

Shepard, R. N. & Chipman, S. 1970. Second order isomorphism of internal representa- 
tions: Shapes of states. Cognitive Psychology, 1, 1-17. 

Shepard, R. N. & MetzlerJ. 1971. Mental rotation of three-dimensional objects. Sci- 
ence, 171, 701-703. 

Simkins, L. 1971. The reliability of self-recorded behaviors. Behavior Therapy, 2, 
83-87. 

Skinner, B. F. 1945. The operational analysis of psychological terms. Psychological 
Review, 52, 270-277. 

Skinner, B. F. 1953. Science and human behavior. New York: Macmillan, (Deutsch: 
Wissenschaft und menschliches Verhalten. Munchen: Kindler, 1973). 

Skinner, B. F. 1957. Verbal behavior. New York: Appleton. 

Skinner, B. F. 1963. Behaviorism at fifty. Science, 140, 951-958. 

Skinner, B. F. 1974. About behaviorism. New York: Knopf. 




Beobachtung und Beschreibung von Erleben und Verhalten 



133 



Stanley, J. C. 1961 . Analysis of unreplicated three-way classifications, with applica- 
tions to rater bias and trait independence. Psychometrika, 26, 205-219. 

Starr, D. J. & Katkin. E. S. 1969. The clinician as aberrant actuary: Illusory correlation 
and the Incomplete Sentences Blank. Journal of Abnormal Psychology, 74, 
670 - 675 . 

Stern, W. 1911. Die Different el I e Psychologie in ihren methodischen Grundlagen. 
Leipzig: Barth. 

Steward, T. R. 1976. Components of correlation and extensions of the lens model 
equation. Psychometrika, 41, 101-120. 

Strieker, L. J., Jacobs, P. I. & Kogan, N. 1974. Trait interrelations in implicit personal- 
ity theory and questionnaire data. Journal of Personality and Social Psychology, 
30 , 198 - 207 . 

Swets, J. A. (ed.) 1964. Signal detection and recognition by human observers. New 
York: Wiley. 

Taplin, P. S. & Reid, J. B. 1973. Effects of instructional set and experimenter influence 
on observer reliability. Child Development, 44, 547-554. 

Thorndike, E. L. 1920. A constant error in psychological ratings. Journal of Applied 
Psychology, 4, 25-29. 

Thomae, H. 1960. Der Mensch in der Entscheidung. Miinchen: Barth. 

Titchener, E. B. 1914. A primer in psychology. New York: Macmillan. 

van der Kamp, L. J. T. & Mellenbergh, G. J. 1976. Agreement between raters. Educa- 
tional and Psychological Measurement, 36 , 311 - 317 . 

van Meter, D. & Middleton, D. 1954. Modern statistical approaches to reception in 
communication theory. Institute of Radio Engineers Transactions, PGIT-4, 
119 - 145 . 

Webb, E. J., Campbell, D. T„ Schwartz, R. D. & Sechrest, L. 1966. Unobtrusive 
measures. Non reactive research in the social sciences. Chicago: Rand McNally, 
(7. Aufl. 1971; deutsch als: N ichtreaktive M eGverfahren. Weinheim: Beltz, 1975). 

Wells, F. L. 1907. A statistical study of literary merit. Archives of Psychology, 1 (7). 

Wertheimer, M. 1912. Experimentelle Studien uber das Sehen von Bewegungen. 
Zeitschrift fur Psychologie, 61, 161-265. 

Werts, C. E„ Joreskog, K. G. & Linn, R. L. 1976. Analyzing ratings with correlated 
intrajudge measurement errors. Educational and Psychological Measurement, 36, 
319-328. 

White, P. 1980. Limitations on verbal reports of internal events: A refutation of N is- 
bett and Wilson and of Bern. Psychological Review, 87, 105 - 112 . 

Whiting, B. B. & Whiting, J. W. 1975. Children in six cultures: a psycho-cultural 
analysis. Cambridge, Mass.: Harvard Univ. Press. 

Wilder, D. 1978. Effects of predictability on units of perception and attribution. 
Personality and Social Psychology Bulletin, 4, 281-284. 




134 



Hubert Feger und Carl F. Graumann 



Wundt, W. 1862. Beitrage zur Theorie der Sinneswahrnehmung. Leipzig/ Heidelberg: 
Winter. 

Wundt, W. 1863. Vorlesungen uber die Menschen- und Thierseele. 2 Bde. Leipzig: 
VoK. 

Wundt, W. 1885. Die Aufgaben der experimentellen Psychologie (1882). In: W. 
Wundt: Essays. Leipzig: Engelmann. 

Wundt, W. 1888. Selbstbeobachtung und innere Wahrnehmung. Philosophische Stu- 
dien, 4, 292-309. 

Wundt, W. 1907. uber Ausfrageexperimente und uber Methoden zur Psychologie des 
Denkens. Psychol ogische Studien, 3, 301-360. 




3. Kapitel 



Das Q-Sort-Verfahren 

Wolf-Riidiger Minsel und Manfred Heinz 
1. Zur Einordnung des Q-Sort-Verfahrens 

Das Q-Sort-Verfahren, kurz Q-Sort, stellt als Datenerhebungsverfahren eine 
spezielle Forschungsmethode dar. Es bildet eine Datenbasis fur Q-Korrelatio- 
nen und fur die faktorenanalytische Q-Technik (vgl. Mowrer, 1953). 

Nach Cattel (1957) sind Q-Daten diejenige Gruppe von Daten zur Personlich- 
keitsbeschreibung, die aus der Selbstbeurteilung des Individuums mit Hilfe 
von Fragebogen oder Interviews erhoben werden. Bei Q-Korrelationen wer- 
den n Individuen iiber m Merkmale korreliert, wobei m > n sein sollte. Diese 
Korrelationsmethode geht auf Stephenson (vgl. 1953) zurtick und unterschei- 
det sich in statistischer Hinsicht nicht von der R-Technik (Dorsch, 1976). Es 
werden dabei Personen korreliert und fakorisiert. Die extrahierten Faktoren 
sind als Typen interpretierbar. 

Besondere Charakteristika des Q-Sort-Verfahrens sind: 

— es ist ein Rating-Verfahren (Langer & Schulz v. Thun, 1974), speziell zur 
Personlichkeitsbeschreibung 

— die Items werden theoriegeleitet und flir den Individualfall entwickelt 

— das Individuum liefert ipsative Daten; d.h. es werden Aussagen daruber 
gemacht, welche Persbnlichkeitsmerkmale individuell als stark oder 
schwach in Relation zu anderen Personlichkeitsmerkmalen und nicht im 
Vergleich zu anderen Personen oder zu einer ,AuBennorm‘ wahrgenom- 
men werden. 

— ftir die Organisation der Antworten wird eine Flaufigkeitsbesetzung der 
einzelnen Rating-Kategorien zumeist in Form einer Normalverteilung er- 
zwungen. 

Die genannten Charakteristika sind in der Literatur vielfaltig diskutiert wor- 
den und flihrten zu zahllosen von der urspriinglichen Form abweichenden 
Neuentwicklungen. Altere Ubersichtsarbeiten liegen vor zur Q-Technik von 
Mowrer (1953) und zur Q-Methodologie von Wittenborn (1961). 
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2. Beispiel eines Q-Sort-Verfahrens 

Der wohl bekannteste Q-Sort ist der California Q-Set (CQ-Set) von Block 
(1961). Zum Zwecke der exemplarischen Darstellung des Verfahrens entschei- 
den wir uns jedoch fur den Butler & Haigh-Q-Sort (1954), da dieser das 
originare Konzept reprasentiert, leicht modifiziert ubersetzt und teststatistisch 
uberpruft vorliegt (vgl. Schon, 1966; Frohburg, 1972). 

Der Butler & Haigh-Q-Sort dient der Erfassung des Sel bstkonzeptes in Form 
eines Selbst- und Idealbildes und dient u.a. zur Uberprufung der Auswirkun- 
gen klientenzentrierter Psychotherapie (vgl. Minsel & Bente, 1979). Dabei 
wird erwartet, daft im Falle erfolgreicher Psychotherapiegesprache eine Anna- 
herung des Selbstbildes an das Idealbild eines Klienten erfolgt. 

Butler & H aigh gehen dabei von folgenden Grundannahmen aus: 

— Das Selbstbild besteht aus einem organisierten Satz von Konzepten, die ein 
Individuum sich selbst zuschreibt, wie etwa „ich bin...", „ich habe . . ." 
usw. 

— Die Konzepte konnen als Aussagen formuliert und von dem Individuum 
auf ihre Gultigkeit hin beurteilt werden. 

— Die unterschied lichen Werte Oder Bedeutungen, die den Konzepten zu- 
kommen, lassen sich auf einer Ordinalskala abbilden; dabei gibt das Indivi- 
duum den Grad seiner Zustimmung zu jeder Aussage an. 

— Neben dem Selbstbild hat jedes Individuum einen organisierten Satz von 
Konzepten daruber, wie es im Idealfal I sein mochte. Auch das Idealbild ist 
in gleicher Form wie das Selbstbild darstellbar und ei nschatzbar. 



Bei der Anwendung des Butler & Haigh Q-Sorts werden dem Beurteiler 74 
Karten vorgelegt. Auf jeder Karte steht ein Item, wie 

„l. Ich setze oft auf's falsche Pferd 

27. Ich habe vor sexuellen Kontakten Angst 

35. Ich bin wertlos 

38. Ich bin ein liebenswurdiger Mensch 

45. Ich bin anders als andere Menschen 

58. Ich bin ausgeglichen 

74. Ich stelle an mich selbst strenge Anforderungen." 



Der Beurteiler wird instruiert, zwei Sortierungen vorzunehmen. In der ersten 
soil er die Karten mit folgender Instruktion so arrangieren, dal$ sie das Bild 
ergeben, das er bei sich als aktuell wahrnimmt (Selbstbild, SB): 
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„Sortieren Sie diese Karten bitte so, dalS die angegebenen Eigenschaften Sie so 
beschreiben, wie Sie sich heute sehen - von denen, die Ihnen am wenigsten 
ahnlich sind bis zu denen, die Ihnen am meisten ahnlich sind." 

In der zweiten Sortierung soil der Beurteiler die Karten so arrangieren, daft sie 
das Bild wiedergeben, wie er am liebsten sein mochte (Idealbild, IB): 

„Nun sortieren Sie die Karten bitte so, dal$ Sie Ihre I deal person beschreiben - 
die Person, die Sie am liebsten sein mochten." 



Die einzelnen Aussagen (Items) konnen in neun Kategorien sortiert werden: 



Kategorie 1: 
Kategorie 2: 
Kategorie 3: 
Kategorie 4: 
Kategorie 5: 
Kategorie 6: 
Kategorie 7: 
Kategorie 8: 
Kategorie 9: 



Aussagen, die uberhaupt nicht zutreffen 

Aussagen, die kaum zutreffen 

Aussagen, die wenig zutreffen 

Aussagen, die etwas zutreffen 

Aussagen, die mittelmaRig charakteristisch sind 

Aussagen, die schon eher zutreffen 

Aussagen, die starker zutreffen 

Aussagen, die sehr zutreffen 

Aussagen, die besonders typisch sind und genau zutreffen 



Um eine Quasi-Normalverteilung zu erhalten, ist festgelegt, wieviele Items in 
die einzelnen Kategorien sortiert werden durfen. 



Kategorie 


1 2 


3 


4 


5 


6 


7 


8 


9 


Anzahl an 
Items pro 
Kategorie 


3 6 


9 


12 


14 


12 


9 


6 


3 



Fur den Beurteiler wird ein Korrelationskoeffizient zwischen den Differenz- 
werten, die sich aus den Kategorienwerten unter beiden Sortierungen ergeben, 
berechnet. Frohburg (1972, S. 86, 87) erleichtert die Systematisierung der 
Daten und die Berechnung des Korrelations-Koeffizienten durch die nachfol- 
genden Ubersichten (Abb. 1, Tab. 1). 
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Abb. 1: Auswertungsblatt fur eine einmalige Q-Sortierung (entn.: Frohburg, 1972, 
S.87) 



Der Korrelationskoeffizient wird als Selbst-ldeal-Korrelation bezeichnet (Wy- 
lie, 1974). Seine Hohe spiegelt das AusmaB an Selbstachtung (= self-regard) 
wider. 
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Tabelle l: Errechnung des Korrelationskoeffizienten fur den Q-Sort nach der 



Formel 
r = 



2_D 2 

592 



ZD 2 


r 


ZD 2 


r 


ZD 2 


r 


ZD 2 


r 


ZD 2 


r 


1184 


-1.00 


947 


-.60 


710 


-.20 


473 


.20 


237 


.60 


1178 


- .99 


941 


-.59 


704 


-.19 


468 


.21 


231 


.61 


1172 


- .98 


935 


-.58 


699 


-.18 


462 


.22 


225 


.62 


1166 


- .97 


929 


-.57 


693 


-.17 


456 


.23 


219 


.63 


1160 


- .96 


924 


-.56 


687 


-.16 


450 


.24 


213 


.64 


1154 


- .95 


918 


-.55 


681 


-.15 


444 


.25 


207 


.65 


1148 


- .94 


912 


-.54 


675 


-.14 


438 


.26 


201 


.66 


1142 


- .93 


906 


-.53 


669 


-.13 


432 


.27 


195 


.67 


1136 


- .92 


900 


-.52 


663 


-.12 


426 


.28 


189 


.68 


1130 


- .91 


894 


-.51 


657 


-.11 


420 


.29 


184 


.69 


1124 


- .90 


888 


-.50 


651 


-.10 


414 


.30 


177 


.70 


1118 


- .89 


882 


-.49 


645 


-.09 


408 


.31 


172 


.71 


1112 


- .88 


876 


-.48 


639 


-.08 


403 


.32 


166 


.72 


1107 


- .87 


870 


-.47 


633 


-.07 


397 


.33 


160 


.73 


1101 


- .86 


864 


-.46 


628 


-.06 


391 


.34 


154 


.74 


1095 


- .85 


858 


-.45 


622 


-.05 


385 


.35 


148 


.75 


1089 


- .84 


852 


-.44 


616 


-.04 


379 


.36 


142 


.76 


1083 


- .83 


847 


-.43 


610 


-.03 


373 


.37 


136 


.77 


1077 


- .82 


841 


-.42 


604 


-.02 


367 


.38 


130 


.78 


1072 


- .81 


835 


-.41 


598 


-.01 


361 


.39 


124 


.79 


1066 


- .80 


828 


-.40 


592 


-.00 


355 


.40 


118 


.80 


1060 


- .79 


823 


-.39 


586 


.01 


349 


.41 


112 


.81 


1054 


- .78 


817 


-.38 


580 


.02 


343 


.42 


107 


.82 


1048 


- .77 


811 


-.37 


574 


.03 


337 


.43 


101 


.83 


1042 


- .76 


805 


-.36 


568 


.04 


332 


.44 


95 


.84 


1036 


- .75 


799 


-.35 


562 


.05 


326 


.45 


89 


.85 


1030 


- .74 


793 


-.34 


556 


.06 


320 


.46 


83 


.86 


1024 


- .73 


787 


-.33 


551 


.07 


314 


.47 


76 


.87 


1018 


- .72 


781 


-.32 


545 


.08 


308 


.48 


71 


.88 


1012 


- .71 


776 


-.31 


539 


.09 


302 


.49 


65 


.89 


1006 


- .70 


770 


-.30 


533 


.10 


296 


.50 


59 


.90 


1000 


- .69 


764 


-.29 


527 


.11 


290 


.51 


53 


.91 


995 


- .68 


758 


-.28 


521 


.12 


284 


.52 


47 


.92 


989 


- .67 


752 


-.27 


515 


.13 


278 


.53 


41 


.93 


983 


- .66 


746 


-.26 


509 


.14 


272 


‘54 


35 


.94 


977 


- .65 


740 


-.25 


503 


.15 


266 


.55 


30 


.95 


971 


- .64 


734 


-.24 


497 


.16 


260 


.56 


24 


.96 


965 


- .63 


728 


-.23 


491 


.17 


254 


.57 


18 


.97 


959 


- .62 


722 


-.22 


485 


.18 


248 


.58 


12 


.98 


953 


- .61 


716 


-.21 


479 


.19 


242 


.59 


6 


.99 

1.00 



Umrechnung der Differenzwerte (D) in Korrelationskoeffizienten (r) (nur gultig fur 
eine Q-Sortierung mit 74 Items, sortiert in 9 Kategorien in der Verteilung 3, 6, 9, 12, 
14, 9, 6, 3) (nach: Frohburg, 1972, S. 86) 
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Neben der skizzierten Moglichkeit, eine Selbst- und Idealbild-Sortierung vor- 
zunehmen, finden sich zahlreiche variierende Instruktionsformen. Als ein- 
schatzbar gilt alles, was den Bereich der personalen und interpersonal en Wahr- 
nehmung betrifft. Allerdings wird der Q-Sort dann vielfach nicht mehr idio- 
graphisch, sondern nomothetisch verwendet. Ein Beispiel dafur liefert Hartley 
(1950). Die Autorin lieB die an ihrer Untersuchung beteiligten Personen neben 
der tradierten Selbst- vs Idealbild-Sortierung solche fur das „ungluckliche 
Selbst" und die „normale Mutter" durchfuhren. Im gleichen Sinne lieB auch 
Block (1961) die „normal angepaBte Person" anhand seines CQ-Sets ein- 
schatzen. 



3. Anwendung des Q-Sort-Verfahrens 

Die Entwicklung des Verfahrens geht auf Stephenson (vgl. 1953) zuruck. Fur 
ihn bildete das Verfahren einen neuen Ausgangspunkt zur Personlichkeitsbe- 
schreibung. Mit dieser Rating-Methode erhob Stephenson Daten, die er mit 
Hilfe einer jnversen' faktorenanalytischen Technik verrechnete. Es wurden 
dabei Korrelationen zwischen Personen, bzw. zwischen den Daten einer Per- 
son, die unter verschiedenen Bedingungen gefunden wurden, anstelle von 
Korrelationen von Tests berechnet. Stephensons erklarte Zielsetzung war, den 
Individualfall zum Gegenstand der Faktorenanalyse zu machen. 

Tatsachlich hat das Q-Sort-Verfahren jedoch ein sehr viel breiteres Anwen- 
dungsfeld gefunden. Das gait besonders in der 50er Jahren. In verschiedensten 
Formen' unter unterschiedlichsten Bedingungen und Fragestellungen wurde 
das Verfahren angewandt. Einige Beispiele sollen das veranschau lichen. So 
wurde das Q-Sort-Verfahren benutzt 

zur Charakterisierung von Personlichkeitstypen (vgl. Shontz, 1956, Na- 
hinsky, 1958; Block, 1961) 

zur Diagnostik psychischer Anpassung vs Fehlanpassung (vgl. Rogers & 
Dymond, 1954; Friedman, 1955; Chase, 1957; Cartwright 1957; Turner & 
Vanderlippe, 1958; Tobacyk, Broughton & Vaught, 1975) 
zur Uberprufung der Wirksamkeit psychotherapeutischer Interventionen 
(vgl. Fiedler, 1951; Rogers & Dymond, 1954; Shlien, 1964; Garfield & 
Prager, 1971; Sherry & Hurley, 1976) 

- zur Untersuchung des Selbstkonzeptes unterschiedlicher Populationen, 
wie u.a. von Kindern, Jugendlichen, Stotterern, Schizophrenen (vgl. Fied- 
ler, 1951; C apian, 1957; Perkins, 1958; Rogers, 1958) 
zur Untersuchung von perzipierten Fremdbildern, etwa in interpersonellen 
Beziehungen, in Organisationen Oder im interkulturellen Vergleich (vgl. 
Corsini, 1956; Revie, 1956; Shepherd & Guthrie, 1959; Kemnitzer, 1973) 
zur Evaluation klinischer Urteilsbildung (vgl. Rubin & Shontz, 1960; 
Marks & Seeman, 1962; Graham, 1967; van Atta, 1968). 
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Fa(5t man die geschilderten Anwendungsgebiete von Q-Sorts unter dem 
Aspekt der inhaltlichen Fragestellungen zusammen, die damit untersucht wur- 
den, so wird deutlich, daB Q-Sorts zur Uberprufung sowohl intraindividueller 
als auch interindividueller Differenzen eingesetzt werden. D.h., es werden 
sowohl Vergleiche zwischen Individuen als auch Vergleiche innerhalb eines 
Individuums angestellt. Neben dem Aspekt der Untersuchung inhaltlicher 
Fragestellungen liegen zahlreiche Studien vor, die sich mit methodologischen 
Fragen zum Q-Sort auseinandersetzen. 

So kommt Frohburg (1970, S. 122) nach einer umfassenden Literatursichtung 
zu dem Ergebnis, daB das Q-Sort-Verfahren unter methodischem Aspekt zu 
folgenden Zwecken Verwendung gefunden hat: 

zur Skalierung; etwa fur die Beschreibung obengenannter Sachverhalte wie 
der Charakterisierung von Personen Oder Umstanden 
zur Interpretation von Ahnlichkeitswerten mehrerer Sortierungen, z.B. 
fur den Vergleich, wie sich eine Person zu verschiedenen Zeitpunkten Oder 
im Vergleich zu anderen Personen darstel It. 

Zur Datengewinnung fur faktorenanalytische bzw. varianzanalytische Un- 
tersuchungen, etwa zur Fragestellung, ob sich aus den Ergebnissen von Q- 
Sorts miteinander vergleichbare Personlichkeitstypen herausfinden lassen. 



4. Probleme cles Q-Sort-Verfahrens 

Vom Grundgedanken her ist das Q-Sort-Verfahren ein Erhebungsinstrument, 
das theoriegeleitet fur den I ndividualfal I konzipiert wird. Konsequenterweise 
kamen demzufolge in vielen Untersuchungen speziell konstruierte Q-Sorts zur 
Anwendung. Das wiederum fuhrte zu der Situation, daB dieses Erhebungsver- 
fahren zwar vielfaltig benutzt, doch nur unzureichend auf seine Brauchbarkeit 
hin uberpruft wurde. Zudem lieB in vielen Berichten die Beschreibung des 
eingesetzten Q-Sorts zu wunschen ubrig. Demzufolge ist es nahezu unmog- 
lich, vorliegende Ergebnisse zu vergleichen und zu einer vertretbaren SchluB- 
folgerung hinsichtlich der Angemessenheit der Anwendung dieses Verfahrens 
zu kommen. 



4.1 Internselektion und Itemorganisation 

Das Problem der Itemselektion und -Organisation stellt sich insgesamt bei 
Selbstbeschreibungsverfahren (vgl. Klauer, 1978). Im vorliegenden Fall ist es 
von besonderer Bedeutung, da die General isierbarkeit der Ergebnisse maBgeb- 
lich davon beeinfluBt wird (vgl. Block, 1961). So konnten Quarter, Kennedy 
& Laxer (1967) eindrucksvoll belegen, daB die Korrelation zwischen Selbst- 
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und Idealbild bei adjektivisch formulierten Items hoher war als bei solchen, die 
als Aussagen ausformuliert waren. Des weiteren belegten die Autoren, daB die 
Reihenfolge der Vorgabe der Sortierung (z. B. erst Selbstbild dann Idealbild vs 
erst Idealbild dann Selbstbild) keinen EinfluB auf die Hohe der Korrelation 
zwischen Selbst- und Idealbild haben. In einer solch differenzierten Form 
wurde sich aber nur selten mit der Problematik auseinandergesetzt. 

Im wesentlichen sind drei Itemselektionsmethoden zu unterscheiden, die 
Block (1961) in Anlehnung an Stephenson differenziert. Die Itemorganisation 
wird dabei gar nicht besonders bedacht. 

Die erste Methode uberlaBt es dem jeweiligen Untersuchungsleiter, nach sub- 
jektiven Kriterien die Bedeutsamkeit von Items fur den Untersuchungsgegen- 
stand zu bestimmen. Diesem Ansatz sind die meisten vorliegenden Q-Sort- 
Verfahren verpflichtet. So konzipierten beispielsweise Butler & Haigh (1954) 
ihren Q-Sort, indem sie die Items aus den Therapieprotokollen herauszogen, 
die ihnen zur Verfugung standen. Dabei erfolgte die Zusammenstellung nicht 
unter einem bestimmten systematischen Gesichtspunkt, sondern sie ergab sich 
eher willkurlich. 

Bei einer zweiten Methode der Itemselektion wird eine operationale Spezifika- 
tion des Universums des in Frage stehenden Untersuchungsstands gesucht. So 
konstruierte Hilden (1958) das .Universe Of Personal Concepts', indem er 
jedes Wort, das eine menschliche Reaktion beschreiben kann, aus dem Thorn- 
dike Century Senior Dictionary entnahm. Die gefundenen Worter formulierte 
er zu kurzen Aussagen. Durch Randomisierung entnahm Hilden aus dem 
Gesamt der Aussagen 20 kleine Q-Sorts von je 50 Items und verglich die 
Ergebnisse aus deren Anwendung miteinander. Sowohl die Korrelationen zwi- 
schen Selbst- und Idealbild als auch die Differenzierungsfahigkeit zwischen 
den Personen war zwischen dem Gesamt- Sort und den kleinen Q-Sorts gut 
vergleichbar. Frohburg (1970, S. 128) kommt aufgrund dieser Ergebnisse zu 
dem SchluB, „daB die Art des verwendeten Kartensatzes nebensachlich ist, 
wenn es um die Interpretation von Korrelationen geht". Ein weiteres Beispiel 
lieferte Guertin (1973). Er orientierte sich bei der Itemgenerierung an einem 
bereits erprobten MeBinstrument. Aus Kellys Methode (1955 - personal re- 
pertory grid) entwickelte der Autor einen Q-Sort, der dann von ihm faktoren- 
analytisch untersucht wurde. 

Als dritte Methode hatte Stephenson die Itemselektion auf varianzanalyti- 
schem Wege vorgeschlagen. Diese Moglichkeit der Konstruktion eines Q- 
Sorts, die Stephenson (1953) detailliert anhand des Beispiels von Jungs Typo- 
logie beschreibt, wurde bis data weitgehend vernachlassigt. Er ging dabei so 
vor, daB er aus der Typologie von Jung drei Hauptkonzepte identifizierte: 
..attitudes" (Introversion, Extraversion), ..mechanisms" (bewuBt, unbewuBt) 
und ..functions" (Denken, Fuhlen, Empfinden und Intuition). Die drei Kon- 
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zepte bilden die unabhangigen Variablen. Es ergibt sich dann ein 2 x 2 x 4 
Design fur die Varianzanalyse. Den einzelnen Feldern werden feldspezifische 
Aussagen zugeordnet. Die so gewonnenen Aussagen werden als Q-Sort-Ver- 
fahren den Beurteilern vorgegeben. Die erhaltenen Ergebnisse werden wieder- 
um varianzanalytisch verrechnet. Das grundsatzliche Problem dieses Verfah- 
rens liegt an den fehlenden Kriterien, nach denen die Items ausgewahlt werden 
konnten. Die Will kurl ichkeit kann dabei nicht ausgeschlossen werden. 

Wesentliche teststatistische Aspekte, die fur die Konstruktion eines Q-Sorts 
und der Selektion von Items bedeutsam sind, wurden in den meisten Studien 
vernachlassigt. So wurden beispielsweise den Aspekten der Schwierigkeit, Ho- 
mogenitat Oder Trennscharfe der Items Oder auch der Homogenitat der Popu- 
lation der untersuchten Individuen als Basis der Vergleichbarkeit von Ergeb- 
nissen wenig Beachtung geschenkt. Das durfte nicht zuletzt an den testtheore- 
tischen Problemen intraindividueller Messungen liegen. Neff & Cohen (1968) 
fordern daher, daB bei der Konstruktion eines Sets von Aussagen fur einen Q- 
Sort besonders auf die interne Konsistenz der Items geachtet werden muB. 
Allerdings sind die Autoren der Ansicht, daB diese Forderung nur fur den Fall 
erfullt werden kann, daB der Q-Sort auf normativem Weg entwickelt wird. Als 
Losung des Problems schlagen die Autoren ein modifiziertes varianzanalyti- 
sches Modell vor, in dem ein Koeffizient fur die Flomogenitat der Items 
innerhalb der Zellen berechnet wird. 



4.2 Verteilungsform 

Fast ausnahmslos werden die Personen, denen ein Q-Sort-Verfahren vorgelegt 
wurde, aufgefordert, die vorgegebenen Antwortkategorien mit einer festgeleg- 
ten Anzahl von Aussagen zu belegen. Damit wird per Instruktion eine 
wunschgemaBe Verteilungsform, meist eine Normal- Oder Rechteckverteilung 
(vgl. Block, 1961), erzielt. Die damit verbundene Annahme, daft sich intra- 
individuell ei ngeschatzte Personlichkeitsmerkmale einer solchen vorgegebenen 
Verteilungsform entsprechend verteilen, wurde von Jones (1956) gepruft. 

Er gab seinen Beurteilern einen free sort' vor. Dabei wurden den Personen 
nur die Kategorien und die Items vorgegeben, ohne nahere Bindung an eine 
bestimmte Verteilungsform. Die empirisch gefundene Verteilungsform wich 
signifikant von der einer Normalverteilung ab. Zudem lieB sich auch keine 
andere Systematik im Sinne einer Ahnlichkeit zu einer bestimmten Vertei- 
lungsform erkennen. Damit kann die ubliche Instruktion, die zu erzielende 
Verteilungsform vorzuschreiben, nur methodisch begrundet werden. Als Vor- 
teile sind zu werten: die Mittelwerte und Standardabweichungen aller Sortie- 
rungen sind gleich, der Fehler der zentralen Tendenz wird reduziert, zudem 
wird die intraindividuelle U rtei Isvariabi I itat erhoht. Als Nachteile konnen gel- 
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ten: die Veranderung der Item-Schwierigkeiten von Anfang bis Ende des Q- 
Sorts und inhaltliche Verzerrungen aufgrund der Zuordnungsinstruktionen 
sel bst. 



4.3 Auswertung 

Nach Wylie (1974) sind drei Mbglichkeiten der Auswertung von Q-Sort- 
Daten denkbar, wenn sich die Analyse der Daten auf ein einzelnes untersuch- 
tes Individuum zentriert; in Analogie hierzu wird jedoch auch bei dem interin- 
dividuellen Vergleich von Sortierungen verfahren: die Analyse der einzelnen 
Itemplazierungen, die Analyse von .scores' unter einer bestimmten Instruk- 
tion (z.B. die Selbstbild-Sortierung) und die Analyse von .scores' zwischen 
verschiedenen Instruktionen Oder einer Instruktion zu verschiedenen Erhe- 
bungszeitpunkten (z.B. Selbstbild- vs Idealbild-Sortierung). Beispiele (vgl. 
auch oben) fur diese drei Verfahrensweisen finden sich bei Dymond (1954). 
Phillips, Raiford & El-Batrawi (1965) und Frohburg (1972). 

Die statistische Auswertung erfolgt uber spezielle Computerprogramme (vgl. 
Baumann, 1970; Wilbur, Gooding & Vincent, 1970). Inhaltlich werden Ahn- 
lichkeitsmaBe Verschiedenster Art ermittelt (vgl. Cronbach, 1953; Cohen, 
1957; Block, 1961; Coyle, Fowler & Marks, 1967; Frohburg, 1972), die z.T. 
tabelliert vorliegen und in Rang- Oder Produkt-Moment-Korrelationskoeffi- 
zienten transformiert werden. 



4.4 Giitekriterien 



4.4.1 Reliabilitat 

Insgesamt liegen sehr wenig Untersuchungen vor, die sich mit der Reliabilitat 
von Q-Sorts befaBten (vgl. Steller & Meurer, 1974). Zudem sind kleine Stich- 
probengroBen und fehlende Angaben zu Zeitintervallen und Reprasentativitat 
der Untersuchungen die Regel (vgl. Dymond, 1954; Frank, 1956; Frohburg, 
1972). 

Nach Cartwright (1975) sind fur das vorliegende Erhebungsinstrument Konsi- 
stenz und Stabilitat besonders relevant. Mit Konsistenz ist die Frage umschrie- 
ben, inwieweit die Items zu verschiedenen Zeitpunkten dasselbe messen; Sta- 
bilitat meint, inwieweit sich ein Individuum zu verschiedenen Erhebungszeit- 
punkten als gleich darstellt. Wenn die Reliabilitat untersucht wurde, dann 
unter dem Aspekt der Stabilitat. Andere Formen der Reliabilitat (z.B. Parallel- 
test- und H al bierungs-Rel iabi I itat) fehlen ganz (vgl. Livson & Nichols, 1956). 
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Unter Anlehnung an die Differenzierung von Wylie (1974) zur Auswertung 
bedeutet die Reliability je nach Auswertungsart Unterschiedliches. Auf dem 
niedrigsten Niveau, der individuellen Itemplazierung, lieBe sich die Frage stel- 
len, inwieweit eine stabile Itemplazierung von Test zu Test angenommen wer- 
den kann. Auf dem nachsten Niveau, Ebene der singularen Sortierung, kann 
die Frage nach der Zeitstabi I itat der Rangordnung von Individuen gestellt 
werden. Auf dem hochsten Niveau, auf der Sorts einer Person unter verschie- 
denen Instruktionen verglichen werden, lieBe sich fragen, ob die Scores stabile 
intraindividuelle Differenzen widerspiegeln Oder nicht. 

Die berichteten Stabilitatskoeffizienten sind sehr unterschiedlich (vgl. Dy- 
mond, 1954; Frank, 1956; Frohburg, 1972). Das liegt daran, daB unterschied- 
liche Instrumente benutzt wurden und saubere Vergleichsuntersuchungen feh- 
len. Eine sorgfaltige Studie ist die von Steller & Meurer (1974). Sie ermittelten 
eine Sel bstbi I d stabi I i tat nach 3 Tagen von r = .73 und nach 10 Wochen von r = 
.64. Die entsprechenden Korrelationen der I deal bi Idstabi I itat betrugen bei bei- 
den MeBzeitpunkten r = .74. Die Sel bst-l deal bi Idstabi I itaten waren bei einem 
Zeitintervall von 3 Tagen r = .46 und r = .59 und von 10 Wochen r = .54 und 
r = .57 (jeweils Anfang und Ende des Zeitintervalls). Die Autoren schluBfol- 
gern daraus: diese Werte ,weisen auf eine gute zeitliche Stabi I itat dieses Per- 
sonlichkeitsmaBes hi n' (Steller & Meurer, 1974, S. 621). Ahnliche Ergebnisse 
bezuglich der U rtei I sstabi I i tat wurden gefunden, wenn nicht die eigene Per- 
son, sondern Fremdkonzepte Gegenstand der Untersuchung waren (vgl. 
Burns & Jenkins, 1975). 



4.4.2 Validitat 

Die bisherigen Ausfuhrungen lassen vermuten, daB die Validitat von Q-Sorts 
uberwiegend ungeklart ist. Diese Einschatzung ist zutreffend. Grunde dafur 
liegen primar darin, daB fur spezifische Fragestellungen immer wieder neue 
Instrumente zusammengestellt werden, ohne den Aufwand ihrer teststatisti- 
schen Uberprufung einzugehen. Diese Tendenz wird unterstutzt durch den 
Widerspruch ipsativer Datenerhebung und normativer Datenverrechnung 
(vgl. Cattell, 1944; Cronbach & Gleser, 1953; Guilford, 1967). 

Demzufolge lassen sich zur Validitat drei Ansatze differenzieren, die allerdings 
kein Gesamtbild und damit auch keine Bewertung ermoglichen: die inhaltliche 
Bestimmung des Q-Sort, das Reflektieren validitatsreduzierender Faktoren 
beim Q-Sort und Einzelarbeiten zur Uberprufung der Konstruktvaliditat eines 
bestimmten Q-Sorts. 

Die inhaltliche Bestimmung des Q-Sorts ist eine Voraussetzung fur die Validi- 
tatsermittlung. Sie erfolgte theoretisch Oder empirisch. Beispiele fur ersteres 
sind der Fremdkonzept-Q-Sort von Block (1961), der Selbstkonzept-Q-Sort 
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von Butler & Haigh (1954) Oder der von Haan und M itarbeitern zu den Ich- 
Prozessen , Coping and Defending (Haan, 1977). 

Beispiele fur die empirische inhaltliche Bestimmung verwendeter Q-Sort-Ver- 
fahren sind die faktorenanalytischen Studien von Fiedler, 1951; Rogers & 
Dymond, 1954; Nunnally, 1955; Trush, 1957; Subotnik, 1968; Deo & Hun- 
dal, 1969; Woog, 1973. 

Bedauerlicherweise wurden die empirisch notwendig sich anschlieBenden test- 
statistischen Untersuchungen dann jedoch nicht durchgefuhrt. 

Eine bemerkenswerte Arbeit, in der validitatsreduzierende Faktoren beim Q- 
Sort-Verfahren insgesamt reflektiert werden, legte Wylie (1974) vor. Zusam- 
menfassend werden die nachfolgenden Faktoren problematisiert: 

- Q-Sorts sind nicht frei von validitatsbeeinflussenden A ntwortdetermi nan- 

ten; dazu tragt einerseits die erzwungene Verteilungsform bei, andererseits 
die mit alien Selbstbeschreibungsinstrumenten verbundene Gefahr, sozial 
erwunscht zu reagieren (vgl. Taylor, 1955) 

- hohe Selbst- und Idealbild-Diskrepanzen sind kontaminiert mit einer allge- 

meinen Tendenz zu negativen Wahrnehmungen und Beurteilungsprozes- 
sen (vgl. Levy, 1956; Kornreich, Straka & Kane, 1968) 

- die inhaltliche Bedeutung auftretender Selbst- und Idealbild-Diskrepanzen 

ist ungeklart; sie kann fur die Beurteiler und den Diagnostiker unterschied- 
lich sein (vgl. Taylor, 1955) 

- die Itemsortierung bei getrennter Vorgabe der Selbst- und Idealbild-Beur- 

teilung ist nicht zwangslaufig dieselbe wie bei einer Sortierung, bei der die 
zweite Sortierung unter Vorlage der ersten erfolgt 

- die korrelative Auswertung impliziert, daB bei vergleichbarer Korrelation 

Items verschieden sortiert worden sein konnen. 

Diese Probleme sind allerdings nicht hinreichend uberpruft und empirisch 
verfolgt worden. Einzelheiten zur Uberprufung der Konstruktvaliditat eines 
bestimmten Q-Sorts finden sich besonders ausgepragt im Rahmen der klien- 
tenzentrierten Psychotherapieforschung. Uberpruft wurde dabei der Butler & 
Haigh-Q-Sort (1954). 

Rogers (1951) ging von der Annahme aus, daB jeder Mensch neben dem Bild, 
das er von sich hat (Selbstbild) auch eine Vorstellung davon hat, wie er im 
Idealfall sein mochte (Idealbild). Er nahm weiterhin an, daB gesunde, ausgegli- 
chene, psychisch nicht gestorte Personen eine hohe Ubereinstimmung zwi- 
schen Selbst- und Idealbild aufweisen (vgl. Sappenfield, 1970). Erfolgreiche 
Psychotherapie muBte sich demzufolge darin niederschlagen, daB sich eine 
anfangliche Selbst-ldealbild-Diskrepanz vermindert, indem sich das Selbstbild 
dem Idealbild annahert. 
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Diese Annahmen wurden uberpruft. Im Vergleich normaler mit psychoneuro- 
tischen Klienten bestatigten sich die Vorhersagen (vgl. Hanlon, Hofstatter & 
O'Connor, 1954; Friedman, 1955; Fagan & Guthrie, 1959; Frohburg, 1972). 
Die Verwendung des Q-Sort als Therapie-Effekt-MeBinstruments lieB sich fur 
den Neurosebereich stutzen (vgl. Rogers & Dymond, 1954; Butler, 1968; 
Frohburg, 1972; Waskow & Parloff, 1975), nicht jedoch fur den Bereich der 
Psychopathologie (vgl. Ends & Page, 1957; Rogers, 1967). 



4.5 Qualitat der Daten 

Orientiert man sich an einer neueren Systematik zur Differenzierung von 
Personlichkeitsdaten, die Block (1977) in Anlehnung an Cattell (1957, 1973) 
vornimmt, so sind die Daten aus Q-Sort-Verfahren primar S-Daten, d.h., sie 
werden durch Selbstbeobachtung eigener Verhaltensweisen, Gefuhle und Ko- 
gnitionen gewonnen. Daneben werden jedoch auch Q-Sort-Verfahren zur Er- 
hebung von R-Daten, d.h. Beobachtungsdaten, benutzt. Als Beispiel fur diese 
Form von Q-Sort-Daten steht Block (1961). Die Intention, die dieser Autor 
mit seinem CQ-Set verfolgt, ist die Einschatzung infragestehender Sachverhal- 
te durch kompetente Beobachter. Als R-Daten lieferndes Instrument gilt der 
Q-Sort auch dann, wenn statt des I deal bi Ides externe Standards wie der nor- 
male Durchschnittsburger u.a. eingeschatzt werden (vgl. Levy, 1956; Fagan & 
Guthrie, 1959). Diese inhaltliche wohl plausible Verwendung des Q-Sorts 
weist auf ein zweites zentrales Problem hin. Mit dem Q-Sort-Verfahren wird 
eine ipsative Messung vorgenommen (Cattell, 1944; Block, 1957; Guilford, 
1967). Schon Cattell (1944) wies ausdrucklich darauf hin, daB es unzulassig sei, 
Daten, die als ipsative Daten gewonnen wurden, wie normative Daten zu 
behandeln und zu verrechnen. Wahrend Block (1957) nachweisen konnte, daB 
ipsative und normative Messungen zu vergleichbaren Ergebnissen fuhren, 
schrankte Wittenborn (1961) diese Aussagen ein, indem er darauf hinwies, daB 
die Fehlervarianz bei ipsativen Item-scores, die wie normative behandelt wur- 
den, groBen Schwankungen von Item zu Item und von Stichprobe zu Stich- 
probe unterworfen sein kann. In jungster Zeit setzte sich Marceil (1977) mit 
dem Problem idiographischer und nomothetischer Messung erneut auseinan- 
der und erarbeitete eine Indikationsmatrix. Diese Matrix beinhaltet einerseits 
methodische und andererseits theoretische Voraussetzungen der Forschung. 
Marceil unterteilt diese Voraussetzungen in jeweils zwei weitere Dimensionen. 

Dabei subsumiert er unter die methodischen Voraussetzungen die Dimensio- 
nen ,,selektive Untersuchung mehrerer Individuen" vs ..intensive Untersu- 
chung weniger Individuen", unter die theoretischen Voraussetzungen die Di- 
mensionen ,,Der Mensch ist eher ahnlich (alike)" vs „Der Mensch ist eher 
einzigartig". Legt man diese Matrix zugrunde und ordnet Fragestellungen den 
einzelnen Kombinationsmoglichkeiten der Matrixdimensionen zu, so konnen 
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in der Forschung idiographische und nomothetische Messungen bei verschie- 
denen Fragestellungen nebeneinander stehenbleiben. 



5. Bedeutung des Q-Sort-Verfahrens 

Eine Bewertung des Q-Sort-Verfahrens vorzunehmen ist nicht einfach. Die 
Schwierigkeiten sind dreifach begrundet. Zum einen ist das Verfahren in den 
50er Jahren entwickelt worden und zum damaligen Zeitpunkt auch vorrangig 
eingesetzt und erprobt worden. Das geschah weniger ,im Sinne des Erfinders' 
als Basis fur die Faktorenanalyse einzelner Personen, sondern eher als psycho- 
diagnostisches Instrument zur Messung der intrapsych ischen emotionalen An- 
gepaBtheit und Zufriedenheit. Als solches hat das Verfahren auch heute noch 
seinen Platz behauptet (vgl. Wittenborn, 1961; Waskow & Parloff, 1975). Des 
weiteren sind Q-Sort-Verfahren vom Konzept her singular konstruierte Erhe- 
bungsinstrumente fur spezifische Forschungsfragestellungen. Daraus folgt na- 
hezu zwangslaufig wegen des erheblichen zusatzlichen Forschungsaufwandes, 
daB die auffindbaren Instrumente zumeist nicht sehr systematise!! untersucht 
worden sind. Letztlich hat man sich in jungster Zeit mit diesem Erhebungsver- 
fahren nicht mehr gezielt auseinandergesetzt. Das ist um so bedauerlicher, als 
Testkonstruktion, Testtheorie und Auswertungsmethodik sich seit Begriin- 
dung des Verfahrens erheblich differenziert haben und das Erhebungsinstru- 
ment Q-Sort demzufolge konzeptadaquater als bisher aufgebaut und unter- 
sucht werden konnte. Stichworter in diesem Sinne sind: Interaktionismus, 
probabilistische Testtheoriemodelle, Einzelfallanalysemethodik, Verfahren 
zur Bestimmung von Kontentvaliditat, Indikation von idiographischen Me- 
thoden usw. (Shapiro, 1961; Ekehammar, 1974; Fischer, 1974; Hersen & 
Barlow, 1976; Marcell, 1977; Klauer, 1978). Eine Neubelebung des differen- 
zierten Einsatzes des Q-Sorts-Verfahrens scheint auch inhaltlich im Rahmen 
der Ausdifferenzierung der Selbstkonzeptforschung (vgl. Filipp, 1979) und der 
verstarkt sich entwickelnden klinischen Ei nzelfal I d i agnosti k sinnvoll und er- 
folgversprechend. Ob diese Chance genutzt wird, muB derzeit unbeantwortet 
blei ben. 
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1. Einleitung 

Die Semantische Differential Technik ist eine Methode zur Analyse der Bedeu- 
tung von Zeichen. Ein Semantisches Differential (SD) besteht aus einer (nicht 
verbindlich festgelegten) Anzahl von bipolaren (meist siebenstufigen) Rating- 
skalen, deren Endpunkte in der Regel durch Adjektive gekennzeichnet sind. 
Im deutschen Sprachraum werden u.a. auch die Bezeichnungen 
.Eindrucksdifferential ‘ und .Polaritatsprofil ‘ verwendet. Die SD-Technik 
wurde von Osgood und Mitarbeitern (Osgood 1952; Osgood & Suci 1955; 
Osgood et al. 1957) zur Analyse der dent sprachlichen Bedeutungsverhalten 
zugrunde liegenden Dimensionalitat entwickelt und wird seitdem auch auBer- 
halb der psycholinguistischen Problemstellung mit groBer Haufigkeit in der 
empirischen Sozialforschung und in nahezu alien Bereichen der psychologi- 
schen Forschung eingesetzt. Darstellungen theoretischer, methodischer und 
technischer Art geben Osgood, Suci & Tannenbaum (1957), Heise (1969), 
Snider & Osgood (1969), Bergler (1975) und Osgood, May & Miron (1975). 



1.1 Zugrundeliegende Modelle 

Die SD-Technik wird von Hormann (1976, 92) im Hinblick auf die Komplexi- 
tat ihrer theoretischen Begriindung als ,,eine glanzende Leistung des ,aufge- 
klarten Neobehaviorismus‘“ gewilrdigt. Als Methode zur Erfassung bedeu- 
tungsspezifischer Reaktionen auf Zeichen ist sie durch eine Verhaltenstheorie 
der Bedeutung von Zeichen fundiert, die mit einem Mess- und einem Raum- 
modell in einen Korrespondenz-Zusammenhang eingebettet ist. Zwar sind 
diese drei Modelle logisch voneinander unabhangig, ihre Verbindung kann 
aber als charakteristisch fur die SD-Technik gelten. 
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1.1.1 Verhaltensmodell (representational mediation theory) 

Die Bedeutung von Zeichen wird vom beobachtbaren Verhalten gegenilber 
den bezeichneten Dingen hergeleitet. Die Genese von Zeichen und ihrer Be- 
deutung wird von Osgood (1971, 11) folgendermaBen beschrieben: 

„a stimulus pattern (S') which is not the same physical event as the thing signified (S) 
will become a sign of that significate when it becomes conditioned to a mediation 
process, this process: (a) being some distinctive representation of the total behavior (R T ) 
produced by the significate, and (b) serving to mediate overt behaviors (R x ) to the sign 
which are appropriate to („take account of") the significate. 




Abb. 1: (Nach Osgood et al. 1957, 7) 

a) Entwicklung primarer Zeichen b) Entwicklung sekundarer Zeichen 



Das potentielle Zeichen S’, z.B. ein Wort, lost also nach raum-zeitlicher Ver- 
bindung mit einem Ding S einen (reduzierten) Teil des Gesamtverhaltens auf S 
aus, der - bei alleiniger Darbietung des Zeichens - als reprasentationale 
Response r M die Funktion hat, ein Autostimulationsmuster s M zu vermitteln, 
das die zeichenspezifischen, dem bezeichneten Sachverhalt S rechnungtragen- 
den, offenen Verhaltensweisen R x auslost. Die Bedeutung eines Zeichens ist 
nach dieser Konzeption durch einen spezifischen reprasentationalen Vermitt- 
lungsprozeB bestimmt. 

Die Mehrzahl aller Zeichen hat ihre Bedeutung durch Verbindung mit anderen 
Zeichen und nicht unmittelbar mit den bezeichneten Dingen erhalten (sekun- 
dare Zeichen, vgl. Abb. lb). Die meisten Sechsjahrigen, von denen die wenig- 
sten jemals einem Zebra begegnet sind, verstehen das Wort .Zebra": sie haben 
Bilder von Zebras gesehen, gehort, daB Zebras gestreift sind, wie Pferde laufen 
und gewohnlich wild leben (Osgood et al. 1957, 8). Das Reizmuster .Zebra" 
(S") erhalt Teile derjenigen M ediations-Responses r M , die bereits von den 
primaren Zeichen ausgelost werden. 

Filr die bedeutungsspezifischen r M gilt, daB sie aus Komponenten (r,) beste- 
hen; die Eigenart der r M wird jeweils durch die spezifische Kombination der r m 
bestimmt. 
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d.h. 

r M, = ( r m,> r m,j r„J 

r M 2 = (r m „ r m J 

(t"m 3 > ^m 4 ) t* mft3 ^"m 3 . 



Abb. 2: (Nach Osgood 1971, 12) Komponenten zeichenspezifischer Vermitt- 

lungsprozesse. 

Eine Diskussion der Osgoodschen Bedeutungskonzeption findet sich bei 
Fuchs (1975a). 

1.1.2 Mefimodell 

Um die Bedeutung von Zeichen zu erfassen, miissen der Mediationskonzep- 
tion gemaB die reprasentationalen Vermittlungsprozesse s m) zuganglich 

gemacht werden. Diese auBern sich. abhangig von der Starke der Verbindung 
mit den Autostimulationsprozessen und situativen Bedingungen, in den offe- 
nen Verhaltensweisen R x . Die von Osgood und Mitarbeitern vorgeschlagene 
Ldsung ist die SD-Technik: eine Kollektion von siebenstufigen bipolaren Ra- 
tingskalen. deren Merkmale eine representative Stichprobe bedeutungsspezifi- 
schen Urteilsverhaltens darstellen und dazu dienen sollen, Zeichen quantitativ 
zu qualifizieren, z.B. Hans ist (auBerordentlich) klug, (sehr) machtig, (etwas) 
alt usw. 




HANS 



dumm : : : : : : JL klug 

machtig : — : : : : : machtlos 

jung — : : : : 2L : : alt 



-3 -2 - 10 12 3 



1.1.3 Raummodell 

In der Analogie einer raumlichen Darstellung von Bedeutung lassen sich Zei- 
chen als Punkte in einem geometrischen Raum lokalisieren. Die Bedeutung 
eines Zeichens wird durch einen Vektor reprasentiert, der vom Schnittpunkt 
der Achsen, dem Punkt vollstandiger Bedeutungslosigkeit, ausgeht: die Lange 
des Vektors entspricht der Bedeutsamkeit (Intensitat, Sattigung), seine Rich- 
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tung der ,semantischen Qualitat' des Zeichens. Die Bedeutungsahnlichkeit von 
Zeichen wird durch die GroBe der Distanzen zwischen den Punkten abge- 
bildet. 

Als Achsen eines derartigen Bedeutungsraumes konnten die SD-Ratingskalen 
aufgefaBt werden. Da sie einen Raurn konstituieren wttrden, dessen Ordnung 
beliebig bliebe, wird die empirische Analyse der dimensionalen Struktur zum 
zentralen Problem der Entwicklung des Bedeutungsraumes. 



1.2 Integration der Modelle 

Osgood (1971) legt Wert auf die Darlegung, daB diese drei Modelle streng 

aufeinander bezogen sind. 

1. Die Komponenten r m der reprasentationalen Responses r M werden mit den 
empirisch gewonnenen Hauptachsen des Bedeutungsraumes, den Dimen- 
sionen E(valuation), P(otency) und A(ctivity) identifiziert. In ihrer Ver- 
schiedenheit reprasentieren die Bedeutungs-Komponenten E, P und A nach 
Osgoods Auffassung solche Aspekte des Verhaltens gegeniiber Dingen, die 
aufgrund unterschiedlicher Anpassungsfunktion differentiell verstarkt wer- 
den. In dieser Betrachtungsweise sind Zeichen seit den Zeiten des Neander- 
talers dadurch bedeutsam, d.h. verhaltensrelevant, daB sie vor allem spezifi- 
zieren, in welchem MaBe die bezeichneten Dinge .gut' oder .schlecht' (E). 

, stark' oder ,schwach‘ (P), .aktiv' oder ,passiv‘ (A) sind. 

2. Da die offenen Reaktionsweisen, die von den Vermittlungsprozessen repra- 
sentiert werden, nach einem reziprok-antagonistischen Muster organisiert 
seien, folge, daB die Komponenten r m in eben dieser Weise funktionierten. 
Da die offenen Reaktionsweisen im Hinblick auf ihre Intensitat variieren, 
wird auch ihren reprasentationalen Vermittlungsprozessen diese Eigenschaft 
zugeschrieben. Aufgrund der Unvereinbarkeit gleichzeitiger Tendenzen in 
Richtung auf antagonistische r m (also Tendenzen z.B. in Richtung E+ und 
E-) wird angenommen, daB sich beide, wenn sie auftreten, in Richtung auf 
Neutralist oder Bedeutungslosigkeit aufheben. 

Deni reziprok-antagonistischen Charakter der bedeutungsspezifischen Me- 
diatoren und ihrer Intensitatsvariation wird durch die Verwendung bipola- 
rer, quantitativ abgestufter Beurteilungsskalen Rechnung getragen. 

3. SchlieBlich werden die Punkte im Raum, die die Bedeutung von Zeichen 
reprasentieren, mit den r M insgesamt, wie sie durch Zeichen hervorgerufen 
werden, identifiziert. 

Osgood bezeichnet die Beziehung der in Abb. 3 wiedergegebenen Modelle als 

..isomorph". 
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E + 




Abb. 3: (Nach Osgood 1962, 11 und 1971, 17) Integration der Modelle (.Jsomor- 
phismus“) 



2 . Ordnung von SD-Daten: Architektur eines universellen 
Bedeutungsraumes 

Die Bedeutung eines Zeichens ist - der Konzeption Osgoods gernaB -durch 
seine Lage im Bedeutungsraum bestimmt. Das zentrale Problem der SD-For- 
schung betrifft die Identifizierung der Dimensionalitiit dieses Raumes; die 
dazu vorliegende Ldsung ist die EPA-Struktur. Aufgrund von Belegen ihrer 
Stabilitat gegeniiber der Variation von Beurteilern und Konzepten (sprachli- 
chen Zeichen, meist Nomen) und zwar sowohl innerhalb wie zwischen Spra- 
chen/Kulturen gilt sie als ein generelles bzw. universelles Sprachmerkmal. Der 
anwendungsorientierten Forschung dient sie als ein allgemeines Bezugssystem 
fur quantitative Vergleiche der Bedeutung von Zeichen. 

Es verdient an dieser Stelle hervorgehoben zu werden, daB die SD-Technik nur 
in Verbindung mit deni Modell eines Semantischen Raumes als eine eigenstan- 
dige Forschungstechnik anzusehen ist. Abgelost vom Raummodell stellt ein 
SD lediglich eine Ansammlung von Ratingskalen dar. Allerdings ist die SD- 
Technik keineswegs an die EPA-Losung der Struktur von Zeichen-Bedeutung 
gebunden. 1m folgenden sollen zunachst die grundlegenden Befunde zur Gel- 
tung dieses semantischen Faktoren-Systems skizziert, sowie Bedingungen 
erortert werden, die das Auftreten der EPA-Struktur beeinflussen. 

Wichtigste Erkenntnisgrundlage sind die Forschungsberichte .The Measurement of 
Meaning 1 (Osgood et al. 1957) und .Cross-Cultural Universals of Affective Meaning 1 
(Osgood et al. 1975), in denen ein beispiellos ehrgeiziges, mehrphasiges semantisches 
,Raumfahrt‘-Programm beschrieben wird, das Osgood und Mitarbeiter zusammen mit 
.Copiloten 1 , computerorientiertem .BodenpersonaP und .Beobachtungsstationen 1 rund 
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um die Erde durchgefuhrt haben. Nur die kritische Wurdigung der Befunde zur Kon- 
zeption des Semantischen Raumes tragt zur Klarung der praktisch bedeutsamen Frage 
bei, inwieweit das SD als eine wiederverwendungsfahige semantische .Raumfahre' ein- 
gesetzt werden kann und wann die Exploration semantischer Raume spezifischer SDs 
bedarf. 

Die folgende Darstellung geht von den fiir SD-Erhebungen typischen Daten 
aus. SD-Urteile werden von Beurteilern auf Skalen fiir Konzepte abgegeben; 
die Daten lassen sich also in einer dreimodalen Matrix anordnen (vgl. Abb. 4). 



Skalen 




Abb. 4: Dreimodaler SD-Datenkubus 



2.1 Skalen-Kovariation: Generality der EPA-Struktur 

2.1.1 Grundlegende Befunde (The Measurement of Meaning: 

Osgood et al. 1957) 

In einer ersten Analyse wurden zu 40 Nomen (der Kent-Rosanoff-Liste) bei 
Studenten Primarassoziationen (Adjektive) gesammelt. Die fiinfzig haufigsten 
wurden zusammen mit ihren Antonymen in der Standardform 100 Studenten 
zur Beurteilung von 20 (anderen) Konzepten vorgelegt. Die Skalenkorrelatio- 
nen (iiber Beurteiler und Konzepte) wurden nach der Centroid-Methode fak- 
torisiert und orthogonal rotiert. Als Ergebnis wurde die klassische EPA-Lo- 
sung gefunden: Evaluation (33,8 % ges. Varianz) mit hohen Ladungen auf den 
Skalen .good - bad‘, .beautiful - ugly‘, .sweet - sour‘; Potency (7.6% ges. 
Varianz) durch .large - small', .strong - weak', .heavy - light'; Activity 
(6.2% ges. Varianz) mit .fast - slow', .active - passive' und .hot - cold'. 
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Um die Unabhangigkeit dieser Losung von der Auswahl der Konzepte zu 
iiberpriifen, wurden in einer zweiten Analyse alle flinfzig Adjektivpaare einer 
Stichprobe von 40 Beurteilern aus der gleichen Population paarweise vorge- 
legt. Ein Adjektiv des ersten Paares diente als ,Konzept‘; das zu ihm am besten 
passende Adjektiv des anderen Paares sollte ausgewahlt werden. Die Prozent- 
werte der Wahlhaufigkeiten in einer Skalen x Skalen-Matrix wurden in einer 
fur Rohdaten modifizierten Form der Diagonalmethode nach Thurstone fak- 
torisiert. Die Ahnlichkeitsbeziehungen der Skalen, wie sie sich in dieser Pro- 
zentwerte-Matrix ausdriicken, setzen jeweils perfekte Bipolaritat voraus - 
eine Annahme, die angesichts der ad-hoc-Erzeugung der Antonyme und der 
inzwischen vorliegenden Befunde (vgl. Abschn. 3.1) problematisch erscheint. 
Die Ergebnisse wiesen befriedigende Ubereinstimmung mit denen der ersten 
Analyse auf; die Autoren konstatieren, daB die EPA-Struktur damit gegeniiber 
einem Wechsel der Beurteilerstichprobe und der Datenerhebungsmethode sta- 
bil geblieben ist. 

Als Beitrag zur Begriindung der Generalitat der EPA-Struktur werden in den 
friihen Arbeiten des Measurement of Meaning die Ergebnisse einer dritten 
Studie interpretiert. Um die Abhangigkeit dieser Losung von der vorher ge- 
troffenen Skalenauswahl einzuschatzen und mogliche weitere Dimensionen 
des Semantischen Raumes zu identifizieren, wurden die Beschreibungsmerk- 
male nun systematisch aus Roget's Thesaurus ausgewahlt. Wiederum 100 Stu- 
denten beurteilten mit Hilfe von 76 Skalen (Kapazitatsgrenze des Computers) 
2.0 Konzepte unterschiedlicher Kategorienzugehorigkeit. Da die unrotierte 
Centroid-Losung die EPA-Struktur erkennen lieB, wurde sie durch Pivot- 
Skalen fixiert; fiir die Residualvarianz wurden flinf weitere Faktoren tentativ 
interpretiert. Der erheblich geringere Anteil der durch EPA erklarten Varianz 
(28 % gegeniiber 48 % bzw. 44 % der ges. Varianz), der im wesentlichen zu 
Lasten des E-Faktors ging, wird von den Autoren auf die Art des Skalensamp- 
lings zuruckgefuhrt. 

Erganzende Analysen, die die EPA-Struktur auch fur die Beurteilung von 
nicht-verbalen Konzepten (Ortungssignale, Gemalde) belegen, werden be- 
richtet. 

Die friihen Arbeiten deuten auf eine spezifische. durch EPA beschriebene 
Struktur des Urteilsverhaltens hin, die gegeniiber einer gewissen Variation der 
Datenanalysetechnik (im Bereich der Faktorenanalyse), dem Kriterium der 
Auswahl ,reprasentativer‘ Skalen, der Auswahl von Konzepten und der Wahl 
der Stichprobe von Beurteilern aus einer Population (Studenten) zumindest 
qualitativ stabil bleibt. 

Eine systematische Untersuchung der EPA-Generalitat hat die Art des Samp- 
lings in alien drei Varianzquellen, sowie die Aufklarung der gesamten, in den 
Daten enthaltenen Varianz zu beriicksichtigen. 
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2.1.2 Beriicksichtigung der verfiigbaren Varianz von SD-Daten 

Die den drei Modalitaten entsprechenden Varianzquellen sind ftir die Analyse 
der Dimensionalitat des Semantischen Raumes in unterschiedlicher Weise rele- 
vant: Der Semantische Raum wird durch Achsen bestimmt, deren Definition 
auf der Kovariation zwischen den Skalen basiert. Gesucht wird die geringste 
Anzahl von Achsen, die Komponenten r m der r M des mediationstheoretischen 
Modells, die das bedeutungsspezifische Verhalten hinreichend beschreiben. 
Flir die Autoren des Measurement of Meaning (Osgood et al. 1957), wie die 
Autoren von Cross-Cultural Universals of Affective Meaning (Osgood et al. 
1975) ist die Faktorenanalyse die Methode der Wahl zur Losung dieses Pro- 
blems gewesen und geblieben. 



2. 1 .2. 1 Daten-Reduktionstechniken 

Die wahrend der friihen Arbeiten verfiigbaren faktorenanalytischen Modelle 
waren nur fill' zweimodale Datenmatrizen anwendbar. Fiir die Uberfuhrung 
der dreimodalen Ausgangsmatrix in eine Korrelationsmatrix diskutieren Mi- 
ron & Osgood (1966) drei Reduktionstechniken: 

„ stringing out“ 

Bei dieser, haufig und auch von Osgood et al. (1957) verwendeten Technik werden die 
Korrelationen zwischen den Skalen fiir die ,aufgereihten‘ Markierungen aller Beurteiler 
bei alien Konzepten berechnet. Miron & Osgood (1966; vgl. auch Osgood et al. 1975, 
45f und insbes. Miron 1972, 315ff) bemangeln, dal5 hier die Struktur der Skalenkova- 
riation nicht nur im Hinblick auf die Konzepte, sondern auch gleichzeitig durch Beur- 
teilervarianz bestimmt wird. Bei geringer Konzeptvarianz determiniere diese u.U. ent- 
scheidend die Skalenkovariation. 

Summation 

Die Beurteilervarianz wird durch Summierung uber die Beurteiler innerhalb der Kon- 
zepte reduziert. Die Skalen-Korrelationen werden fiir die Summenwerte bei den Kon- 
zepten bestimmt. Diese Methode wurde im Rahmen des kulturvergleichenden Projekts 
(Osgood et al. 1975) bevorzugt. 

Durchschnittliche Korrelation 

Die fiir al I e Beurteiler gesondert berechneten Skalen-Korrelationsmatrizen (fiir al I e 
Konzepte) werden liber die Beurteiler gemittelt. 

Wahrend also im ersten Falle die gesamte Beurteiler- und Konzeptvarianz bei 
der Berechnung der durchschnittlichen Skalenkovariationen berucksichtigt 
wird, wird die Beurteilervarianz in den beiden anderen Verfahren als Fehlerva- 
rianz betrachtet und durch Mittelung reduziert. Insbesondere ein der .Summa- 
tion' entsprechendes Vorgehen mul$ schon deshalb empirisch gut begriindet 
werden, weil es - statt einer strengen Prufung - die generelle (d.h. u.a. auch 
beurteiler-unabhangige) Geltung der EPA-Struktur als eine Folge der nietho- 
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dischen Manipulation implizieren kann: Beurteilervarianz wird hier ganzlich 
ignoriert. Dafiir, daB sie zu Recht vernachlassigbar ist, werden folgende Argu- 
mente vorgebracht (Osgood et al. 1957; Miron & Osgood 1966; Osgood et al. 
1975): 

— Faktorenanalysen aufgrund von Skalenkorrelationen nach der ,stringing- 
out' und der Summations-Methode fiihren (in einem Beispielfall) zu sehr 
ahnlichen Ergebnissen. 

— Faktorenanalysen von Beurteiler x Beurteiler-Matrizen mit den Korrelatio- 
nen der beurteilerspezifischen Skalenkorrelationen fiihren (in zwei Refe- 
renzfallen: Ware 1958; Tanaka & Osgood 1965) zu Losungen, die nur 
einen Beurteilerfaktor bedeutsam erscheinen lassen. 

— Die Ergebnisse von seit neuerem vorliegenden dreimodalen Faktorenanaly- 
sen lassen erkennen, daB der ,Lowenanteil‘ der Beurteilervarianz jeweils 
durch nur einen Faktor erklart wird. 

Die Analyse interindividueller Differenzen wird in Abschn. 2.1.5 noch aus- 
fiihrlicher erortert. 



2. 1.2. 2 Konzeptvarianz 

Wiihrend die Autoren des Measurement of Meaning durch Verwendung der 
stringing-out-Technik Beurteiler- und Konzept-Varianz noch gleichermaBen 
in die Datenanalyse einbeziehen 

(,. since our long run purpose was to set up a semantic measuring instrument which 
would be applicable to people and concepts in general, we wished to obtain that matrix 
of intercorrelations among scales which would be most representative or typical' 1 , 
Osgood et al. 1957, 35), 

gehen die spateren Arbeiten (insbes. Osgood et al. 1975) davon aus, daB die 
Beurteilervarianz Vernachlassigbar ist. Demgegenuber erwies sich die Repli- 
zierbarkeit der EPA-Struktur nicht nur von einer bevorzugten Berucksichti- 
gung der Konzeptvarianz in den Skaleninterkorrelationen abhiingig, sondern 
vor allem auch von der Organisation der Konzeptvarianz durch Art und An- 
zahl der zur Beurteilung vorgelegten Konzepte. In einer groBen Zahl von 
Untersuchungen werden von der EPA-Struktur abweichende Losungen be- 
richtet, wenn weniger umfangreiche oder spezifische Konzeptklassen analy- 
siert werden. Derartige Abweichungen lassen sich selbst dann beobachten, 
wenn die EPA-reprasentativen Beurteilungsskalen verwendet werden. Wenn, 
wie man vermuten kann, die Skalenkorrelationen angesichts der meist sehr 
begrenzten Umfange der Konzeptstichproben in vielen Fallen nach der strin- 
ging-out Methode berechnet wurden, konnte der Einwand von Miron (1972) 
zutreffend sein, daB in diesen Fallen die Beurteilervarianz eine geringe Kon- 
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zeptvarianz ,uberschwemmt‘ habe. Allerdings ist dieser Einwand problema- 
tisch, weil er die Abweichung durch eine Ursache erklart, die die Annahme 
substantiell bedeutungsloser Beurteilervarianz gefahrdet. 

Gravierender als diese Vermutung erscheint die Kritik, die Carroll schon 1959 
gegen die Ergebnisse von Osgood et al. (1957) vorgebracht hat: Im explorati- 
ven Zusammenhang muB die verwendete Stichprobe von Konzepten gewahr- 
leisten, dafi die Skalen entsprechend der gesuchten ,wahren‘ dimensionalen 
Struktur kovariieren. Der gesamte Raurn muB entsprechend durch eine ange- 
messene Stichprobe von Konzepten reprasentiert werden; zur Begrlindung 
von m unabhangigen Dimensionen fordert Carroll, daB mindestens 2m + 2 m 
Konzeptbeurteilungen zugrundegelegt werden. Dieser Forderung entsprechen 
die Analysen des Measurement of Meaning offenkundig nicht hinreichend, da 
die Verwendung von 20 Konzepten danach allenfalls zur Interpretation von 
vier unabhangigen Faktoren ftihren kann. Aus diesem Grunde haben Osgood 
et al. (1975) die Zahl der Konzepte auf 100 erhoht. 

Soweit die gesuchte Urteils-Struktur nicht schon als eine inharente Ordnung 
der Skalenkovariation angesehen und entsprechend - konzeptfrei - begrttn- 
det wird (vgl. Analyse 2 des Measurement of Meaning), kann sie - anhand 
von Konzeptbeurteilungen - nur dann identifiziert und repliziert werden, 
wenn eine nach Umfang und Art hinreichende Stichprobe von Konzepten 
zugrunde gelegt wird. Losungen fur einzelne Konzepte oder Konzeptklassen 
lassen Ruckschliisse auf eine generelle Struktur des Urteilsverhaltens nicht zu. 

In welcher Weise beschreibt aber eine konzeptunabhiingige, generelle EPA- 
Struktur die Bedeutung der einzelnen Konzepte, wenn deren Bedeutung beirn 
gleichen methodischen Zugriff durch andere als die EPA-Dimensionen be- 
stimmt wird? 

Methodisch entspricht diese Differenz jener zwischen gemeinsamer und spezi- 
fischer Kovarianz der Skalen fiir die Konzepte. EPA reprasentiert die alien 
(verbalen) Zeichen gemeinsamen Bedeutungsaspekte. Die in sie nicht einge- 
hende, ausgesonderte spezifische Urteilsvarianz flihrt bei der Analyse einzel- 
ner Konzepte/Konzeptklassen zu entsprechend spezifischen Losungen. Der 
empirische Gehalt der EPA-Konzeption bemifit sich nicht zuletzt danach, in 
welchem AusmaB die auf EPA entfallende gemeinsame Varianz im Verhaltnis 
zur konzeptspezifischen an der Varianz des Urteilsverhaltens beteiligt ist. 

In der Tradition der SD-Forschung ist allerdings die Frage, wie gemeinsame 
und spezifische Bedeutung begrifflich zu fassen sind, von wesentlich groBerem 
Interesse gewesen. Die wichtigste, keineswegs vollig entsprechende Unter- 
scheidung ist die zwischen konnotativer und denotativer Bedeutung. 
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2. 1.2. 3 EXKURS: Affektive (konnotative) und denotative 
Bedeutung 

Osgood selbst hat immer wieder nachdriicklich betont, daB EPA Bedeutung 
nicht in erschopfender Weise reprasentiert. Ihre Eigenart wird begrifflich als 
konnotative (emotive, metaphorische) von denotativer (designativer, referen- 
tieller) Bedeutung abgegrenzt (Osgood et al. 1957, 321). Die Verwendung 
dieses in Sprachphilosophie, Linguistik und Psychologie vielfaltig variierten 
Begriffsdualismus durch Osgood hat insbes. von linguistischer Seite heftige 
Kritik erfahren und zwar sowohl im Hinblick auf ihre begriffliche Klarheit wie 
auch ihren empirischen Gehalt (vgl. Nordenstreng 1969). 

Osgood hatte zunachst erwartet, die zeichenspezifischen Vermittlungsprozes- 
se r m als Dimensionen sensorischer Art, wie z.B. (visuell) Helligkeit, Farbton 
und -Sattigungsfaktoren, (auditiv) Lautstarke und Tonhohe, sowie olfaktori- 
sche Faktoren identifizieren zu konnen. Er bekennt 1964, daB diese Erwartung 
seiner eigenen mediationstheoretischen Konzeption nicht entsprach, in wel- 
cher Bedeutung durch response-spezifische Vermittlungsprozesse definiert 
wird. Der reaktive Charakter der wiederholt beobachteten EPA-Dimensionen 
lieB Osgood nicht nur die bessere Ubereinstimmung mit seiner Theorie erken- 
nen, sondern auch die affektive Natur dieser Bedeutungsprozesse deutlicher 
hervortreten (vgl. dazu auch Ertel 1964). Als Reaktion auf einen Beitrag von 
Kuusinen (1969) tendiert er 1969 dazu, die durch philosophische Sprachver- 
wendung belastete Unterscheidung von Konnotation und Denotation zu ver- 
werfen und von .affektiven 1 und ,anderen‘ Bedeutungskomponenten zu spre- 
chen. 

Diese neue Kennzeichnung von Bedeutungsarten erfolgt auf empirischer 
Grundlage: Die beobachteten EPA-Faktoren weisen bemerkenswerte Ahn- 
lichkeit mit den Wundtschen Hauptrichtungen der Geflihle (Lust/Unlust, Er- 
regung/Beruhigung, Losung/Spannung) und den - allerdings davon nicht un- 
abhangig formulierten - Dimensionen des mimischen Ausdrucks nach 
Schlosberg (1954) auf. Uber diese begriffliche Analogie hinaus legt Osgood 
(z.B. 1969, 1971) seiner Interpretation der EPA-Bedeutung Beobachtungen 
der Dominanz und der Universalitat der EPA-Dimensionen zugrunde. Insbe- 
sondere aufgrund ihres universellen, kulturunabhangigen Auftretens wird die 
EPA-Struktur mit neurophysiologischen Spekulationen als angeboren inter- 
pretiert; der Dominanz entspreche die fundamentale, urspriingliche Bedeu- 
tung von affektiven Reaktionen flir das menschliche Verhalten und zwar so- 
wohl im phylo- wie im ontogenetischen Sinne. In funktionalistischer Betrach- 
tungsweise werden die durch EPA charakterisierten Bedeutungsdimensionen 
als zentrale Modi der Umweltbewaltigung aufgefaBt. 

Die operationale Trennung von EPA- und anderen Faktoren, sowie der Hin- 
weis auf eine bemerkenswerte Ahnlichkeit der ersteren mit Emotionsdimen- 
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sionen, kann eine begriffliche Unterscheidung ,affektiv-konnotativer‘ gegen- 
ilber ,denotativ-anderen‘ Bedeutungsarten nicht ersetzen. Osgood et al. (1975, 
393) akzeptieren die Kritik von Nordenstreng (1969; vgl. auch Miron 1969), 
insoweit er eine klare, nicht-operationale Definition fur das verlangt, was mit 
einem SD erfaBt wird. 

Einen alteren Vorschlag Osgoods (1964) aufgreifend, werden ,konnotativ‘ sol- 
che Urteile genannt, in denen die Bedeutung von Zeichen dureh Bezug auf ihre 
(iibergeordnete) Klassenzugehorigkeit spezifiziert wird: ein BABY ist klein, 
und zwar aufgrund des Vergleichs mit Menschen im allgemeinen; als .denota- 
tiv‘ werden solche Urteile bezeichnet, die relativ zu einem Standard auf der 
gleichen hierarchischen Ebene abgegeben werden: NINA ist klein, d.h. im 
Vergleich zu anderen Babies und nicht als Mensch. 

Da beim semantischen Differenzieren, wie die Autoren vermuten, Urteile liber 
ein Konzept relativ zu einem ubergeordneten Konzept abgegeben werden 
(s.o.), wlirden denotative Urteilsweisen zurlickgedrangt. Leider begriinden 
die Autoren die angemessene Verwendung dieser linguistischen Unterschei- 
dung im Hinblick auf das SD-Urteilsverhalten nicht. An anderer Stelle (Os- 
good et al. 1975, 400) wird das Hervortreten der affektiv-konnotativen EPA- 
Struktur weiter dadurch erklart, daB durch die Beurteilung der verschieden- 
sten Konzepte mit den gleichen Beurteilungsmerkmalen eine metaphorische 
Sprachverwendung begiinstigt wird (vgl. Osgood 1969, 1971). 

Angesichts der begrifflichen Unscharfe der SD-relevanten Bedeutungsarten 
beschranken sich operationale Bestimmungen affektiver und denotativer Be- 
deutung bei homogenen Konzeptklassen auf die Trennung von EPA-spezifi- 
schen Bedeutungsanteilen als ,Affekt‘ von der iibrigen, interpretierbaren Ska- 
len-Kovarianz als .Denotation 1 . Kuusinen (1969) identifiziert affektive und 
denotative Strukturen von Personlichkeitsbeurteilungen, indent er aus den In- 
terkorrelationen der Skalenmittelwerte die Korrelationen mit den EPA-Mar- 
kierskalen herauspartialisiert und sowohl die urspriingliche, wie die Partialma- 
trix faktorisiert. Das als denotativ bezeichnete Restsystem ist aber nach diesent 
Verfahren nicht ein von den EPA-Affekt-Dimensionen gesaubertes System, 
sondern es ist die gesamte Kovarianz der einzelnen EPA-Markierskalen elimi- 
niert. Tzeng (1975, 1977; Tzeng & May 1975) hat deshalb vorgeschlagen, die 
Trennung durch Konstruktion von orthogonalen Subraumen fur Affekt und 
Denotation im Bedeutungsraum vorzunehmen: Transformations-Matrizen der 
Rotation von Markierskalen zur (reinen) EPA-Losung und zur Einfachstruk- 
tui werden dabei auch zur Rotation von Ladungsmustern fur die iibrigen 
Skalen verwendet; EPA- und .sonstige 1 Bedeutungsanteile der einzelnen Ska- 
len sind in den jeweiligen Subraumen feststellbar. Im Verhaltnis zur Elabo- 
riertheit des Verfahrens tritt die bereits konstatierte begriffliche Vagheit beson- 
ders deutlich hervor: als Kriterium der Unterscheidung von affektiver und 
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denotativer Bedeutung fungiert Ahnlichkeit bzw. Nicht-Ahnlichkeit mit der 
EPA-Struktur. 

Die Bemuhungen um eine Prazisierung der SD-Bedeutungsprozesse haben 
bislang einschliigige Beitrage der , imagery ‘-Forschung kaum berlicksichtigt. 
Paivio (1969; 1971), ihr bedeutendster Vertreter, faBt .imagery 1 als ein non- 
verbales assoziatives Vermittlungssystem zwischen verbalen Reizen und Re- 
sponses auf. das neben und unabhangig von einem (teilweise mit ihm verbun- 
denen) verbalen, assoziativen System existiert. Beide Kodierungs-Systeme lei- 
sten die kognitive Representation unserer Welt. Die Verfugbarkeit des imagi- 
nalen Kodierungs-Systems hangt nach Paivio entscheidend davon ab, in wel- 
chem AusmaB ein verbaler Reiz konkret oder abstrakt ist. d.h. sich auf sinn- 
lich erfahrbare Merkmale von Sachverhalten bezieht: 

..The hypothesis is that concrete terms such as „house“ derive their meaning through 
association with concrete objects and events as well as trough association with other 
words, and thereby acquire the capacity to evoke both nonverbal images and verbal 
processes as associative (meaning) reactions, which could function as alternative coding 
systems affecting mediation and memory. Abstract terms such as „tmth“, on the other 
hand, derive their meaning largely through intraverbal experiences and more effectively 
arouse verbal associative than imaginal processes" (Paivio 1969, 248). 

Denotative Bedeutung bezeichnet die Verknupfung von Vorstellungsbild 
(Image) und sprachlichem Zeichen. (Mit Bezug auf Staats, 1968. wird deno- 
tative Bedeutung als der auf ein sprachliches Zeichen konditionierbare Teil der 
sensorischen .Reaktion 1 auf das (bezeichnete) Objekt aufgefaBt.) 

Insofern besteht zwischen der Dimension abstrakt/konkret und der denotati- 
ven Bedeutung von Zeichen ein enger Zusammenhang: abstrakte Worter, d.h. 
solche ohne bezeichnete Objekte im Unterschied zu konkreten Wortern rufen 
keine Vorstellungsbilder hervor und weisen mithin keine denotative Bedeu- 
tung auf. 

Godfrey & Natalicio (1970) haben im AnschluB an Paivio die Abstraktheit/ 
Konkretheits-Dimension, deren Rolle von Osgood et al. (1975) mehrfach ge- 
ring veranschlagt wird (z.B. p. 401, vgl. allerdings p. 187), auf die Evalua- 
tionsdimension bezogen und ihren Beitrag durch den Titel .Evaluation on SD 
equals abstraction plus error 1 gekennzeichnet. Diesem Befund liegen z.T. sehr 
hohe Korrelationskoeffizienten fiir den Zusammenhang von Urteilsvarianz auf 
E-Skalen relativ zu NonE-Skalen mit Abstraktheits/Konkretheits-Rangord- 
nungen zugrunde: Bei abstrakten Konzepten tritt mehr E gegeniiber NonE als 
bei konkreten Konzepten auf und vice versa. Lohr (1976) hat gezeigt. daB 
imaginal-denotative Bedeutung (sensorischer Art) und evaluative Bedeutung 
(emotional sensu Osgood) als distinkte Vermittlungsprozesse voneinander un- 
abhangig und konkurrierend konditionierbar sind. 
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KostiE & Das (1971) haben versucht, die Art der mit dent SD erfafiten Bedeu- 
tung begrifflich durch AusschluG von nicht erfafiten Bedeutungsaspekten zu 
prazisieren: 

Die durch die EPA-Faktoren definierte Bedeutung ist nicht-lexikalischer Art, ob- 
wohl die Differentialurteile auf lexikalischen Bedeutungen basieren. Osgood selbst 
hat wiederholt Beispiele fur EPA-bedeutungsgleiche aber lexikalisch verschieden 
bedeutsame Konzepte gegeben. 

- Die mit dem SD erfafite Bedeutung ist begrenzt auf verbal abstrahierbare Bedeu- 
tungsaspekte und zwar solche, die vielen Konzepten gemeinsam sind. Idiosynkrati- 
sche, spezielle und einzigartige Bedeutungsaspekte werden nicht beriicksichtigt. 
Die Definition von Bedeutung durch EPA ist eine allgemeine, ohne Einschrankung 
im Hinblick auf die individuelle Oder spezifische Situation. Im sprachlichen Kom- 
munikationsverhalten wird die Bedeutung von Konzepten durch Adjektive spezifi- 
ziert; durch Eingrenzung Oder Reduktion vom allgemeinen auf das weniger allge- 
meine erfullen Adjektive ihre kommunikative Funktion. EPA leistet eine solche 
Bedeutungsspezifizierung nicht. 



2.1.3 Variationen des Modus der Dimensionsanalyse 

Bereits Osgood et al. (1957, 3 1 f) haben die Frage gestellt, ob die dominante 
EPA-Losung aufier von der Art des samplings in den drei Varianzquellen - 
Personen, Skalen, Konzepte - auch von der Faktorisierungsmethode abhan- 
gig ist. Sie vergleichen die Ergebnisse von Centroid- und Rohwertanalysen 
und konstatieren befriedigende Ubereinstimmung (p. 42ff). Orlik (1965; 1967) 
bemangelt, dafi in Rohwertanalysen dieser Art artifizielle Varianz zwischen 
den Skalen eingeht und in der Regel einen zusatzlichen, Pseudo-Faktor konsti- 
tuiert. Firr mittelwertszentrierte Rohwert-Produktsummen (Kovarianzen) 
wird die Mbglichkeit erwartungstreuer Abbildung psychologischer Merkmals- 
raume belegt (vgl. dazu auch Revenstorff, 1973a). 

Die Ergebnisse des kulturvergleichenden Forschungsprojekts (Osgood et al. 
1975), mit dem die Generalitat/ U ni versal itat der EPA-Struktur begriindet 
wird, basieren auf Hauptkomponenten-Analysen, die zu einer Losung filhren, 
die der nach der Centroid-Methode entspricht (Ertel 1965 b; vgl. Harman 
1970, 174). Die EPA-Struktur erweist sich als relativ stabil, wenn liber die 
Urteiler gemittelte SD-Ratings faktorisiert werden (vgl. Heise 1969, 415) - 
.representative' Stichproben von Konzepten und Skalen vorausgesetzt. Auf die 
Berlicksichtigung interindividueller Differenzen wird noch besonders einge- 
gangen. 

Die Validitat der EPA-Struktur des semantischen Raumes kann nicht iiberzeu- 
gend durch Variationen der faktorenanalytischen Technik belegt werden, 
wenn das Urteilsverhalten in der Form von SD-Ratings konstant gehalten 
wird. Osgood et al. (1957, 143ff) berichten iiber erste Versuche, die EPA- 




168 



Bernd Schafer 



Faktoren als die zentralen Dimensionen des bedeutungsspezifischen Urteils- 
verhaltens iiber Ahnlichkeitsurteile flir Konzepte zu validieren. Anderson 
(1970) hat diesen Gedanken aufgegriffen und zwolf Adjektive (jeweils zwei fur 
EPA charakteristische Paare) im Paarvergleich auf Ahnlichkeit beurteilen las- 
sen. Aufgrund der stress-Werte der MDS nach Kruskal erwies sich die Drei- 
dimensionalitat auch des Ahnlichkeitsraumes als begriindet, bei der allerdings 
wie auch gelegentlich flir SD-Faktoren berichtet wird - A und P zusam- 
menfallen. Diesen, von Osgood als .Dynamism' bezeichneten komplexen Fak- 
tor fand auch Arnold (1971) aufgrund von Kruskal-MDS-Analysen, wobei 
jeweils vier Dimensionen (nicht-euklidischer Metrik) der Unahnlichkeit fur 
eine Nomen-, eine Adjektiv- und eine Verbliste angemessen erschienen. Diese 
Unahnlichkeits-Dimensionen wiesen zwar substantielle Korrelationen mit den 
in Hinblick auf E, P und A auch unidimensional skalierten Listen auf, ohne 
daB jedoch eine dimensionale Korrespondenz auffindbar wurde. 1m Unter- 
schied zu den Ergebnissen von Anderson (1970) basieren die Unahnlichkeits- 
raume bei Arnold (1971) allerdings auf Wortlisten, deren Geeignetheit zur 
Reproduktion von EPA zweifelhaft ist. Aber auch angesichts weiterer vorlie- 
gender Befunde zur Korrespondenz von SD und MDS-Losungen flir Ahnlich- 
keits- oder Praferenzraume (Nordenstreng 1968; Green et al. 1969; Magnus- 
son & Ekman 1970; Everett 1973; Shikiar et al. 1974; Garling 1976) kann eine 
Entsprechung - zumal im Hinblick auf EPA - nicht hinreichend klar festge- 
stellt werden. 



2.1.4 Transkulturelle Stabilitat 

Nachdem sich die EPA-Struktur gegeniiber Variationen der Skalen-, Konzept- 
und Personen-Stichproben - soweit sie hinreichend reprasentativ waren - 
resistent erwiesen hatte und bereits einige Befunde vorlagen. denen zufolge sie 
auch liber Sprachen/Kulturen Geltung zu haben schien (Kumata & Schramm 
1956; Kumata 1957; Triandis & Osgood 1958; Suci 1960) initiierte Osgood 
1959 ein gigantisches Forschungsprojekt, bei deni die Generalitat der EPA- 
Struktur iiber Kulturen und Sprachen iiberpriift werden sollte. Im Unterschied 
zu den vorliegenden Befunden wurde auf die Verwendung iibersetzungsaqui- 
valenter Beurteilungsmerkmale verzichtet, um sprachlich-kulturellen Eigenar- 
ten verschiedener semantischer Systeme Rechnung zu tragen. 

Insgesamt gingen Daten aus 25 Sprach/Kultur-Gemeinschaften in diese Unter- 
suchung ein; trotz eines Ubergewichtes indo-europaischer Sprachen war ver- 
sucht worden, linguistische und kulturelle Differenzen zu maximieren. 

In einem mehrphasigen AuswahlprozeB wurden 100 Substantive als Beurtei- 
lungsgegenstande gesammelt, die ein hohes MaB kultureller Allgemeinheit ge- 
wahrleisten sollten. Diese zunachst amerikanisch-englische Liste wurde iiber- 
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setzt und die Nomen wurden an alien Erhebungsorten jeweils 100 Schiilern/ 
Studenten zur Charakterisierung durch jeweils ein Adjektiv vorgelegt. In regu- 
larer grammatikalischer und orthografischer (ggf. transkribierter) Form wur- 
den diese Nennungen von Osgood und Mitarbeiter in Illinois , blind' im Hin- 
blick auf productivity’ ( Auftretenshaufigkeit und Verteilung iiber die Kon- 
zepte, vgl. Abschn. 4.1), sowie .Unabhangigkeit' von anderen Beurteilungs- 
merkmalen geordnet. Auf diese Weise wurden fur jede Sprach/Kultur-Gemein- 
schaft die fiir sie relevanten Beurteilungsmerkmale ausgewahlt. Die ortlichen 
Forschungsgruppen erhielten eine bis zu 70 Adjektive umfassende Liste zuriick, 
die gemafi diesen Kriterien die hochsten Rangplatze einnahmen. Mit Hilfe von 
10 unabhangigen Experten wurden zu ihnen Antonyme erhoben und die da- 
nach verbleibenden 50 Adjektivpaare (vorlaufig) um 10 Paare erganzt, die - 
aufgrund der automatischen Selektion ausgesondert - am Erhebungsort flir 
wichtig gehalten wurden. In einem weiteren Schritt wurden sodann von 200 
neu-rekrutierten Vpn (ebenfalls mannlichen Schiilern/Studenten) alle 100 Kon- 
zepte mit diesen Merkmalspaaren in der Form von Rating-Skalen beurteilt. 
Fiir die Skalen-Interkorrelationen wurden in Illinois sowohl fiir Sprache/Kul- 
tur spezifische, wie auch pankulturelle Faktorenanalysen gerechnet. In ein- 
drucksvoller Weise wird in nahezu alien Analysen, insbes. der pankulturellen, 
gezeigt, daB EPA nicht nur durchgangig als dominierende Dreier-Struktur 
auftritt, sondern ihre semantische Ahnlichkeit zwischen Sprachen/Kulturen 
teilweise bis in iibersetzungsaquivalente Beurteilungsmerkmale reicht. Im 
theoretischen Zusammenhang ist damit die zentrale Hypothese bekraftigt: „. . . 
regardless of language or culture, human beings utilize the same qualifying 
(descriptive) framework in allocating the affective meanings of concepts'' (Os- 
good et al. 1975, 6). Dieser Sachverhalt ermoglicht nach Meinung der Autoren 
fiir alle Sprachen/Kulturen SDs zu entwickeln, die Unterschiede in subjektiven 
Kulturen vergleichbar machen, wenn ihre Items EPA reprasentieren. 



2.1.5 Interindividuelle Unterschiede 

Osgood et al. (1975, 364) stellen zu Recht fest, daB die Osgoodsche Bedeu- 
tungskonzeption nicht im Widerspruch zur Moglichkeit individueller Unter- 
schiede bei Bedeutungssystemen steht. die auf unterschiedlichen Erfahrungen 
beim Lernen von Zeichen oder in Unterschieden hinsichtlich Emotionalitat, 
Intelligenz usw. basieren konnten. Die Universalitat der EPA-Struktur ist 
insoweit nicht theoretisch begriindet: Die Annahme ihrer Geltung iiber Per- 
sonen geht vielmehr auf Beobachtungen zuriick, denen zufolge EPA bei Stich- 
proben verschiedener Personen-Kategorien auftritt, so z.B. im Hinblick auf 
Alter, Geschlecht, Intelligenz, politische Orientierung, Normalitat (vgl. die 
Ubersicht bei Osgood et al. 1975, 58ff; Rosenbaum et al. 1971). Die Befunde 
zur Generalitat iiber sehr unterschiedliche kulturelle Gruppen haben - auch 
wenn dabei jeweils nur Stichproben von mannlichen Schiilern/Studenten be- 
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riicksichtigt wurden - die Vorstellung bekraftigt, daB alle Menschen ein ge- 
meinsames affektives semantisches Bezugssystem teilen. 

In einigen Arbeiten (Williams 1972; Denmark et al. 1972) werden zwar Ein- 
schrankungen aufgrund sozio-okonomischer Klassifizierung von Urteilern na- 
hegelegt; es fallt jedoch schwer, die gefundenen Mangel an Ubereinstimmung 
zwischen den sozialen Gruppen zu interpretieren, da sie gering sind oder 
durch die Auswahl der beurteilten Konzepte begriindet sein konnen. Hinweise 
auf kulturspezifische Variationen der Dimensionslosungen werden von Ta- 
naka & Osgood (1965) und Tanaka et al. (1963) bei libersetzungsaquivalenten 
Skalen in der Weise interpretiert, daB bestimmte Beurteilungsskalen entweder 
im Hinblick auf Konzepte und/oder Personen faktoriell unstabil sind (Kon- 
zept-Skalen- und Person-Skalen-lnteraktionseffekte). 

Den Vergleichen inter- und intrakultureller Stichproben von Personen liegt in 
der Regel der von Osgood und Mitarbeitern bevorzugte Aggregierungsmodus 
der dreimodalen Ausgangsdaten Summation 1 d.h. Mittelwertbildung liber 
Personen bei den Konzepten zugrunde. 

Wiggins & Fishbein (1969) bezweifeln, daB Befunde wie die hier angeflihrten 
geeignet sind, die Frage nach der universellen Geltung der EPA-Struktur hin- 
reichend zu beantworten. Wenn diese Frage nicht nur die Bedeutung habe, ob 
es ein gemeinsames semantisches Bezugssystem gebe, das die intraindividuelle 
Struktur einer ,gemittelten pankulturellen Person 1 widerspiegle. sondern auch. 
ob dieses Bezugssystem reprasentativ fiir (intrakulturelle und) individuelle 
Strukturen innerhalb der Kultur sei, dann mliBte eine auf gemittelten MaBen 
basierende Struktur auch die beste Representation der semantischen Struktur 
von Individuen innerhalb einer Kultur sein. 

Osgood et al. (1975) rechtfertigen die Verwendung von Gruppenmittelwerten 
nicht nur mit dent Hinweis, daB flir ihre Untersuchungen geeignete dreimoda- 
le Analyseverfahren nicht verfiigbar waren, sondern sie vertreten weiterhin die 
Meinung, daB diese Datenreduktion im Hinblick auf interindividuelle Varianz 
angemessen ist. Erkenntnisgrundlagen dafiir sind: 

- Faktorlosungen flir Datenmatrizen nach Summation- und stringing-out- 

Reduktion zeigen keine bemerkenswerten Unterschiede. (Bei der strin- 
ging-out-Prozedur gehen die einzelnen Personen ein, allerdings ist auch 
hier Person- und Konzept-Varianz konfundiert.) 

- Skaleninterkorrelationen iiber die Konzepte ftir jede einzelne Person kor- 

relieren untereinander so hoch, daB die Matrix der Korrelationen iiber die 
korrespondierenden Zellen (Personen-Matrix) zu Faktorlosungen fiihrt, 
die als einfaktoriell anzusehen sind (Ware 1958; Tanaka & Osgood 1965). 
Die Eindimensionalitat der Person- Varianz erscheint durch die Ergebnisse 
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neuerdings vorliegender dreimodaler Faktorenanalysen bekraftigt (Levin 
1965; Litt 1966; Snyder 1967; Tzeng 1975). 

Gegenilber dem zuletzt genannten Punkt verweisen Wiggins & Fishbein 
(1969) darauf, daB gerade die Ergebnisse der dreimodalen Faktorenanalyse von 
Levin die Moglichkeit zur Interpretation mehrerer Person-Faktoren aufwei- 
sen. Sie selbst ftihren eine Tucker-Messick-MDS von Ahnlichkeitsurteilen filr 
15 charakteristische EPA-Skalen durch und erhalten 3 Person-Faktoren. Wah- 
rend sich die Dimensionalitat der Skalen beim ersten Person-Faktor (, group 
average space 1 ) bemerkenswert klar durch EPA reproduzieren lieB, ergab die 
Einlagerung der Personen in den dreidimensionalen Person-Raum kreisformi- 
ge Arrangements um den zweiten und dritten Faktor, deren Representation 
durch 10 kegelformig angeordnete Vektoren (Idealisierte Personen) angemes- 
sen erschien. Die Ahnlichkeitsurteile dieser 10 homogenen Personen-Gruppen 
ergaben jeweils Faktorlosungen (.viewpoints'), die zwischen 2 und 4 Skalen- 
Dimensionen (mit jeweils mehr als 90% Anteil an der gesamten Varianz) 
aufwiesen. Dabei war nicht nur der Beitrag der einzelnen Skalen zur Defi- 
nition der semantischen Dimensionen unterschiedlich, sondern es konnte auch 
beobachtet werden, daB die Dimensionszugehorigkeit der Skalen vom Grup- 
pendurchschnitt zu den idealisierten Personen und zwischen den idealisierten 
Personen keineswegs stabil war. Dabei ist zu berucksichtigen, daB nur Skalen 
mit ,klarer‘ EPA-Indikatorfunktion verwendet wurden. 

Bei personspezifischen Faktorenlosungen (MeBwiederholungen iiber Konzep- 
te) war Ertel (1965 b) zwar zum Ergebnis einer personunabhangigen stabilen 
EPA-Struktur mit invarianter faktorieller Struktur der Skalen gelangt. Aller- 
dings lagen diesen Analysen Erhebungen bei nur vier Personen zugrunde. 
Crockett & Nidorf (1967) fanden demgegenuber bei zwolf Vpn eine EPA- 
Losung nur filr fttnf Personen moglich, filr die ilbrigen waren zweidimensio- 
nale Losungen angemessen. Keine Vp zeigte die erwartete Gruppierung der 
EPA-Skalen zu separaten EPA-Faktoren. Lediglich der E-Faktor war bei alien 
Personen klar identifizierbar. Hinweise auf interindividuelle Differenzen im 
Hinblick auf die Struktur des semantischen Raumes finden sich auch bei den 
Ahnlichkeitsdaten Andersons (1970) und Q-Faktorenanaly sen filr einzelne 
Urteilskonzepte durch Revenstorff (1973 a). 

Nun wird man die Feststellung von interindividuellen Differenzen im Prinzip 
als trivial zur Kenntnis nehmen konnen, solange ihr AusmaB nicht spezifiziert 
ist. Der varianzanalytisch feststellbare geringe Varianzanteil zu Lasten der 
Beurteiler relativ zu dem aufgrund der Konzepte und Skalen (Fuchs 1973; 
Revenstorff 1973 a, Schafer 1975 a) laBt keine hinreichenden Riickschlilsse auf 
die Stabilitat der EPA-Struktur iiber Personen zu. Auch die Interaktions- 
Varianzen explizieren nicht den strukturellen Aspekt interindividueller Diffe- 
renzen. Die aufgrund dreimodaler Faktorenanalysen im Hinblick auf die Per- 
sonen beobachteten mehrdimensionalen Losungen weisen, soweit Eigenwert- 
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verlauf und/oder Varianzanteile mitgeteilt werden, flir den ersten (Gruppen- 
durchschnitts-)Faktor den Lowenanteil erklarter Personenvarianz aus. Sie las- 
sen aber kaum mehr erkennen, als daB die EPA-Struktur nicht die beste Repre- 
sentation aller individuellen semantischen Strukturen darstellt (Tzeng 1975, 
1977; Snyder & Wiggins 1970; Muthen et al. 1977). Shikiar et al. (1974) 
konnten zwar die Befunde von Wiggins & Fishbein (1969) bekraftigen, die 
Nutzlichkeit der Berlicksichtigung interindividueller Differenzen erwies sich 
ftir die Vorhersage politischer Praferenzen allerdings als gering. Idiosynkrati- 
sche- und Gruppendurchschnitts-E-MaBe korrelierten nicht nur hoch unter- 
einander, fill' keine von fiinf idealisierten Individuen war die Korrelation des 
idiosynkratischen E-MaBes mit einem MaB der Wahlpraferenz hoher als die 
zwischen Durchschnitts-E-MaB und Wahlpraferenz. Selbst wenn man die 
Voraussetzung eines perfekten Zusammenhangs zwischen evaluativen und 
Praferenz-Urteilen akzeptiert, tragt auch dieser Befund nur sehr vorlaufig zur 
Wurdigung individueller Variation im Hinblick auf die Bedeutungsstruktur 
bei: Interindividuelle Differenzen sind nur im Hinblick auf die E-Dimension 
beriicksichtigt, und die E-MaBe konnten nur im Rahmen von SD-Skalen, die 
aufgrund von ,Durchschnitts-Analysen‘ ftir EPA charakteristisch sind, ,idio- 
synkratisch' sein. 

Osgood et al. (1975, 346) konstatieren, daB die affektiven semantischen Syste- 
me von Individuen innerhalb von Kulturen keineswegs vollig homogen sind. 
Daruberhinaus kann angesichts der vorliegenden Befunde als gesichert gelten, 
daB EPA weder kulturspezifisch, noch ein Artefakt der Durchschnittbildung 
iiber Personen ist. 



2.2 Interaktionsvarianz: Konzept-Skalen-Interaktion 

Bedenken gegen die Annahme einer generellen EPA-Struktur sind seit den 
grundlegenden Arbeiten mit Beobachtungen begrundet worden, iiber die be- 
reits Osgood et al. (1957) berichten: .the meanings of scales and their relations 
to other scales vary considerably with the concept being jugded 1 (p. 187). 
Wahrend eine Person-Skalen- und/oder eine Person(gruppen)-Konzept-Ska- 
len-Interaktion seltener berichtet wil'd (Krieger 1963; Tanaka et al. 1963; 
Nordenstreng 1970; Snyder & Wiggins 1970) - was Wunder angesichts der 
iiblichen Durchschnittbildung der UrteilsmaBe iiber Personen -, ist die Kon- 
zept-Skalen-Interaktion ein bevorzugtes Thema der Kritik an der SD-Technik. 
Allerdings sind die SchluBfolgerungen aus der Analyse der Konzept-Skalen- 
Interaktion hochst unterschiedlich: sie reichen von der Auffassung, es handele 
sich um ein ,Scheinproblem‘ oder methodisches Artefakt (z.B. Ertel 1965a; 
Kahneman 1963) bis zum Vorschlag, das SD als Datenerhebungstechnik von 
seiner bedeutungstheoretischen Grundlage abzulosen (z.B. Darnell 1970). 
Aufgrund des dominierenden Interesses an der Frage der dimensionalen Struk- 
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tur des semantischen Differenzierens basieren die Interpretationen dieser kon- 
zeptspezifischen Einflilsse - wie auch schon fur Personeinflusse (interindivi- 
duelle Differenzen) festgestellt - in aller Regel auf den Ergebnissen von Di- 
mensionsanalysen und selten auf einer varianzanalytischen Erkenntnisgrundla- 
ge. Das AusmaB dieser ,Anomalie‘ ist deshalb kaum quantitativ prazisierbar 
und auch nicht im Verhaltnis zur Zufalls variation testbar. 

Konzept-Skalen-Interaktionseffekte manifestieren sich in einer erheblichen 
Variation der Korrelationen zwischen Skalen bei verschiedenen Konzepten 
(vgl. z.B. Presly 1969; Burns 1976). Entsprechend werden fiir die einzelnen 
Konzepte und Klassen von Konzepten unterschiedliche Ladungsmuster der 
Skalen, einschlieBlich verschiedener Faktorenstrukturen berichtet (z.B. Os- 
good et al. 1957; Osgood 1962, Tanaka et al. 1963; Tanaka & Osgood 1965; 
Darnell 1966; Kubiniec & Farr 1971; Bynner & Romney 1972; Heskin et al. 
1973; Klemnack & Ballweg 1973, Burns 1976). 

Es entspricht unterschiedlichen Fragestellungen der SD-Forschung, wenn das 
Auftreten von Konzept-Skalen-lnteraktionseffekten einerseits in seiner Rele- 
vanz fiir die Geltung einer generellen EPA-Struktur und andererseits in bezug 
auf seine Konsequenzen fiir die Entwicklung eines generell verwendbaren In- 
struments zur Bedeutungsdifferenzierung gesehen wird. 

Osgood und Mitarbeiter haben den Sachverhalt, daB Konzept-Skalen-Interak- 
tionen (im Unterschied zu Person-Skalen-Interaktionen) auftreten, nicht ne- 
giert, sondern betont und durch konzeptspezifische Bedeutungsverschiebun- 
gen von Skalen zu erklaren versucht: In Ubereinstimmung mit dem Kongru- 
enzprinzip tendierten im menschlichen UrteilsprozeB alle Skalen zu Bedeu- 
tungsverschiebungen in Richtung auf Parallelismus mit dem dominanten Be- 
deutungsattribut des Urteilskonzeptes. Evaluative Skalen seien fiir derartige 
Verschiebungen in besonderer Weise anfallig, SD-Skalen generell als Funktion 
der , evaluativeness 1 von Konzepten. Osgood et al. (1957, 188 u. 326f) vertre- 
ten deshalb - was haufig iibersehen wird - die Auffassung. man werde zur 
Erfassung der Bedeutung von Konzepten solche Skalen verwenden miissen, 
die EPA in konzept(klassen)-spezifischer Weise reprasentierten. Osgood et al. 
(1975, 351) stellen fest, daB BedeutungsmaBe fiir bestimmte Konzepte zwi- 
schen verschiedenen Kulturen aufgrund von Konzept-Skalen-lnteraktionen 
,,cum grano salis“ zu interpretieren seien. 

Ertel (1965 a) hat das Auftreten von Konzept-Skalen-lnteraktionen einer rne- 
thodologischen Kritik unterzogen. Er geht davon aus, daB konzeptspezifische 
Korrelationen keine hinreichende Begriindung fiir SchluBfolgerungen auf eine 
zugrundeliegende allgemeine Dimensionsstruktur liefern konnen. Vielmehr 
konne sich die dimensionale Unabhangigkeit der Urteilsfaktoren nur durch 
gezielte Variation der Urteilsgegenstande nach dem Kriterium ,dimensionaler 
Reprasentativitat' der Konzeptstichprobe erweisen. Bei einer derartigen Stich- 
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proben-Organisation wttrden begriffsspezifische Korrelationen ,intersituativ‘ 
verschwinden. Die konzeptspezifische Kovariation der Skalen wird danach 
verursacht durch irrelevante und storende Bedeutungsaspekte von Konzepten 
und/oder Skalen. Ahnlich auBert sich Revenstorff (1973a), der das Interak- 
tionsproblem filr trivial halt, da man durch eine nicht-reprasentative Auswahl 
von empirischen Objekten in jeder Korrelationsellipse Ausschnitte wahlen 
kann, die die Korrelation beliebig variieren lassen. 

Nun wird man zwar den frtihen Arbeiten von Osgood und Mitarbeitern vor- 
halten konnen, daB die Anzahl der beriicksichtigten Konzepte zu gering war 
und die Konzepte auch nicht dimensional reprasentativ ausgewiihlt waren (vgl. 
die Kritik Carrolls 1959). Immerhin haben sie zu sehr ahnlichen Ergebnissen 
gefuhrt wie die Ertelschen Arbeiten, in denen die Bedeutungsstruktur auf- 
grund eines Prozesses sukzessiver Approximation der Auffindung dimensional 
reiner Skalen und Konzepte als eine mit Erregung, Valenz und Potenz be- 
zeichnete Konfiguration resultierte. Die Forderung nach einer breiteren Ur- 
teilsbasis, auch i.S. eines ,Wechsels der Situation 1 , haben Osgood et al. (1975) 
im Cross-Cultural Projekt erflillt. Konzept-Skalen-lnteraktionseffekte lassen 
sich dennoch in der beschriebenen Weise beobachten. Ertel selbst hat die 
Annahme ihres Verschwindens bei dimensional-reprasentativer Konzept- und 
Skalenauswahl empirisch nicht uberpruft. Die Forderung nach reprasentativer 
Konzeptauswahl ist im ubrigen filr die meisten Anwendungsfalle der SD- 
Technik nicht vertretbar. 

Wahrend der Zugang Ertels eher das Problem der Identifizierung der Struktur 
des semantischen Differenzierens und der ihr zugeordneten Skalen betrifft als 
die Losung des Pro blems der Konzept-Skalen-Interaktion, sind andere nietho- 
disch begrundete Argumente vorgetragen worden, die diese Effekte als ein 
Artefakt erscheinen lassen. Kahneman (1963) halt die psychologische Erklii- 
rung, insbesondere die Annahme konzeptspezifischer Bedeutungsverschie- 
bungen der Skalen fiir unnotig. Er geht davon aus, daB jedes Rating S;. k bei 
Konzept j durch Person i auf Skala k als Sumrne dreier Komponenten aufge- 
faBt werden kann: dent ,wahren‘ Wert (Mittelwert der Personen-Population) 
auf Skala k bei Konzept j, der konstanten Abweichung der Person i auf Skala k 
und einer spezifischen Abweichung von Person i auf Skala k bei Konzept j, die 
ihrerseits eine konsistent-idiosynkratische und eine Fehlerkomponente auf- 
weisen. Alle diese Komponenten sind nach Kahnemans Befund korreliert, 
einschlieBlich der ,Fehler‘-Abweichungen, und weisen eine ahnliche Struktur 
auf. Kahneman kann die in seinen Daten (allerdings in nur geringem AusmaB) 
beobachteten Konzept-Skalen-lnteraktionseffekte im wesentlichen durch die 
idiosynkratische Komponente der spezifischen Abweichung in Form einer 
konstanten Uberschatzungs/Unterschatzungs-Tendenz des wahren Wertes er- 
klaren: unterschiedliche Korrelationen (Vorzeichen) zwischen Skalen bei ein- 
zelnen Konzepten konnen infolge dieser interindividuellen Unterschiede er- 
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wartet werden, je nachdem, ob die wahren Werte auf der gleichen oder ver- 
schiedenen Seite des Skalenneutralpunktes liegen. Unterschiedliche Skalen- 
Korrelationen (der wahren Werte) bei verschiedenen Konzeptklassen seien 
demgegenuber nicht auf kognitive Strukturen der Urteiler, sondern auf reale 
,okologische‘ Beziehungen zwischen den Konzepten zuriickzuflihren. Auch 
fur diese Art der Konzept-Skalen-lnteraktion wird die Annahme von Bedeu- 
tungsverschiebungen der Skalen zurlickgewiesen. 

Heise (1969) betont, daB Beobachtungen von Konzept-Skalen-Interaktionen 
in der Regel bei Analysen auf der Basis von Personwerten und nicht von 
Gruppenmitteln berichtet werden. DaB hierbei person-spezifische Varianz die 
diskutierte Interaktion zu beeinflussen scheint, wird durch die Arbeit von 
Snyder & Wiggins ( 1970 ) nahegelegt: die Autoren weisen aufgrund einer drei- 
modalen Faktorenanalyse nicht nur auf eine ,,interaktionale Beziehung zwi- 
schen idealisierten Personen, Konzepten und Skalen“ (p. 466) hin, sie charak- 
terisieren die idealisierten Personen durch Extremisierungstendenzen, die al- 
lerdings abhangig von Urteilsdimensionen und Skalen erscheinen. Norden- 
streng (1969) hebt hervor, daB die Kahnemansche Unterscheidung des kogniti- 
ven und des okologischen Systems immerhin deutlich macht, daB sowohl 
Personen wie Konzepte zu Konzept-Skalen-Interaktionseffekten beitragen. 
Die Feststellung einer psychometrischen Beziehung konne ihre konzeptuelle 
Interpretation aber nicht ersetzen. Er unterscheidet vier Typen (A-D): 

. . different correlations between corresponding scales indicate in type A the extent to 
which a set of concepts is related differently to two individuals, in type B the extent to 
which an individual is related differently to two sets of concepts, in type C the extent to 
which a concept is related differently to two sets of individuals, and in type D the extent 
to which a set of individuals is related differently to two concepts'* (p. 13 ). 

Heise (1969) spricht von ,wahrer‘ Konzept-Skalen-lnteraktion in Abgrenzung 
von methodisch artifizieller, wie sie durch unangemessene Konzeptauswahl, 
Verwendung irrelevanter Skalen und Polarisierungsfehler bedingt sei. Wahre 
Interaktionseffekte konnten durch unterschiedliche Relevanz der Skalen flir 
verschiedene Konzepte und durch Bedeutungsverschiebungen in den Skalen 
im Hinblick auf Klassen von Konzepten zustandekommen. 

Das Merkmal ,suB‘ - , sauer' mag hoch relevant zur Beurteilung von (be- 
stimmten) Nahrungsmitteln, maBig relevant zur Beurteilung von Mitmen- 
schen und kaum relevant zur Beurteilung abstrakter Ideen sein. Entsprechend 
wird bedeutsame Urteilsvarianz auf dieser Skala geringer werden. Insoweit die 
Kovariation mit anderen Skalen dadurch beeinfluBt wird, variieren - kon- 
zeptspezifisch - die Ladungsmuster von Faktorenlosungen. 

Eng verbunden mit der konzeptspezifisch (und mutmaBlich auch person-spe- 
zifisch) differentiellen Relevanz von SD-Skalen scheint die auf Bedeutungsar- 
ten bezogene Erklarung von Verschiebungen der Skalen-, Bedeutungen' durch 
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Osgood (1962) zu sein. Durch die Integration des affektiv-energetischen und 
des sensorisch-motorischen Diskriminierungssystems mit den ihnen zugeord- 
neten konnotativen bzw. denotativen Bedeutungsreaktionen in gleichen Syste- 
men des Sprachverhaltens trete in den auf die Erfassung von affektiver (konno- 
tativer) Bedeutung gerichteten Skalen , denotative ^Contamination' auf. Einzel- 
ne Konzepte schrankten die Skalenbedeutungen in selektiver Weise ein: so 
werde durch das Konzept LAVA filr die Skala ,heiB - kalt‘ deren Denotation 
hervorgerufen, wahrend deren (activity) Konnotation durch Konzepte wie 
JAZZ und FESTIVAL betroffen werde. 

Welche Folgerungen lassen sich aufgrund der vorliegenden Befunde aus deni 
Sachverhalt der Konzept-Skalen-Interaktion im Hinblick auf die Frage nach 
der Generalitat der EPA-Struktur einerseits und der generellen Verwendbar- 
keit eines SD-Instruments andererseits ziehen? 

Zunachst operieren derartige konzept- wie auch personspezifischen Einfliisse 
gegen die Begrundung eines generellen/universellen affektiven Bedeutungssy- 
stenis. Ihre Auswirkungen konnen aber angesichts der vorliegenden Befunde 
(vgl. auch die Ergebnisse der ,konzeptfreien‘ Skalenstruktur-Analysen bei 
Osgood et al. 1957; Wiggins & Fishbein 1969) die Feststellung einer stabilen 
EPA-Kernstruktur des semantischen Differenzierens nicht erschiittern; abge- 
sehen von MeBfehleranteilen verweisen sie vielmehr auf spezifische Bedeu- 
tungsaspekte. die auBerhalb des Bedeutungshorizonts der EPA-Konfiguration 
filr Konzepte (und Personen) charakteristisch sind. Offenkundig verftigt keine 
der von Osgood und Mitarbeitern im Cross-Cultural-Projekt berucksichtigen 
Sprachen/Kulturen iiber „reine“, konzeptunabhangige EPA-Indikatoren. Die 
Beurteilungsskalen transportieren jeweils Bedeutungsaspekte iiber die durch 
EPA definierten hinaus und zwar in interindividuell und zwischen Konzepten 
varianter Weise. 

Es erscheint gerechtfertigt, diese spezifischen Abweichungen bei der Suche 
nach einer allgemeinen Struktur im Kognitionsverhalten als Fehlerkomponen- 
te aufzufassen. Sie scheinen jedoch von hinreichend systematischer Art zu 
sein, um spezifische Bedeutungsstrukturen identifizierbar zu machen (vgl. 
Kuusinen 1969; Tzeng 1975, 1977; Tzeng & May 1975). 

Die Frage nach den Konsequenzen der Konzept-Skalen-Interaktion fiir Kon- 
struktion und Anwendung eines SD auBerhalb des Kontextes der Suche nach 
einer allgemeinen Bedeutungsstruktur ist weniger eindeutig zu beantworten. 
Einerseits ist der Wert der SD-Technik wesentlich von der Bezugsmdglichkeit 
auf die allgemeinen Bedeutungsdimensionen EPA abhangig. Andererseits 
kann kaum bezweifelt werden, daB konzept- und personspezifische Einfliisse 
die Bedeutungsdifferenzierung in unbestimmter Weise verzerren, wenn sog. 
generelle Skalen verwendet werden; die dimensionale Reprasentativitat auch 
von ,typischen‘ EPA-Skalen variiert in Abhangigkeit von diesen Einfliissen. 
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Aus der Generality der EPA-Struktur folgt allerdings nicht, daB diese Dimen- 
sionen fiir alle Konzepte und Personen(gruppen) durch die gleichen Skalen 
optimal reprasentiert werden. Im Gegenteil zeigen die Interaktionseffekte, daB 
dies nicht der Fall ist. Die sprach/kulturspezifischen Losungen des Cross- 
Cultural-Projekts zeigen vielmehr, daB EPA (bei Sprach/Kulturgruppen) 
durchaus auch im Gewande verschiedener Skalensets auftritt. Eine Ldsung des 
Dilemmas konnte also darin bestehen, ftir eine bestimmte homogene Klasse 
von Konzepten und eine bestimmte Population von Personen spezifische 
EPA-lndikatoren zu suchen und zu verwenden. 

Die iiblicherweise zur Behandlung von Konzept-Skalen-Interaktionseffekten 
vorgeschlagenen ,Ldsungsmoglichkeiten‘ betreffen die Gewichtung der einzel- 
nen Skalen fiir die Berechnung von Person-MaBen ftir die einzelnen Dimensio- 
nen (Faktoren-Scores), die - haufig als Bedeutungs- und EinstellungsmaBe 
verwendet - in besonderer Weise von instabilen Faktorstrukturen und La- 
dungsmustern beeintrachtigt werden. Presly (1969) halt mit Bezug auf Kon- 
zept-Skalen-Interaktionseffekte eine Gewichtung von Skalen-Werten nur auf 
der Grundlage konzeptspezifischer Faktorenladungen fiir vertretbar. Bynner 
& Romney (1972) wollen wenigstens die damit (aufgrund unterschiedlicher 
Faktorenlosungen) preisgegebene Vergleichbarkeit der Faktoren-Scores in ei- 
nem gemeinsamen Faktoren-System retten und empfehlen Faktorenanalysen 
sowohl fiir die einzelnen wie iiber alle Konzepte. Soweit Faktoren der Analyse 
iiber die Konzepte auch in den konzeptspezifischen Analysen auftreten, soil- 
ten fiir diese Faktoren-Scores nach MaBgabe der Gewichte der Analyse iiber 
die Konzepte berechnet werden. Levy (1972) hebt hervor, daB die Identifizie- 
rung gemeinsamer und konzeptspezifischer Faktoren erhebliche Probleme 
aufwerfe und schlagt andere Losungen vor: Faktorisierung der (Konzepte/ 
Skalen) x (Konzepte/Skalen) Korrelationsmatrix (vgl. auch Kubiniec & Farr 
1971; Klemnack & Ballweg 1973);oder: Projektion der Faktorenstrukturen 
der untersuchten Konzeptklasse in einen Bedeutungsraum fiir Standard-Kon- 
zepte, etwa den EPA-Raum; oder: Verwendung einer dreimodalen Faktoren- 
analyse-Prozedur. Zur Beriicksichtigung von Variation in Mittelwerten und 
Standardabweichungen der Skalen iiber die Konzepte wird die Analyse von 
Kreuzprodukt-Rohwerten und Kovarianzen empfohlen. 

Datenanalyseverfahren konnen Konzept-Skalen-Interaktionseffekte deutlich 
und lokalisierbar machen. Sie konnen dazu beitragen. der Konzept-Skalen- 
Interaktion als einer Anomalie Rechnung zu tragen. Sie konnen aber weder das 
Problem storender konzept- und personspezifischer Einfliisse ,, Ibsen", noch 
ihr Auftreten beeinflussen. Letzteres kann allerdings durch angemessene Aus- 
wahl von Skalen fiir bestimmte Konzepte (bei bestimmten Personen) erreicht 
werden (vgl. Abschn. 4). 
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2.3 „Fehlervarianz“ 

2.3.1 Systematische Urteilsfehler 

2. 3. 1.1 Extremisierung 

Bei der Inspektion von SD-Datenlisten sind in der Regel bei einzelnen Perso- 
nen auftretende Bevorzugungen bestimmter Skalenpositionen, und zwar der 
Mittel- und der Extrempositionen auffallig. Derartige Urteilstendenzen sind 
fiir Rating-Skalen haufig beschrieben worden (z.B. Peabody 1962; Hamilton 
1968). Wir beschranken uns hier auf einige Beobachtungen und Erklarungen 
dieses Sachverhalts bei der Analyse von SD-Daten. Dabei steht die .Extremi- 
sierungstendenz 1 im Vordergrund. Die Bevorzugung der mittleren Antwort- 
kategorie scheint nach den vorliegenden Befunden (Mitsos 1961; Orlik 1965; 
Mikula & Schulter 1970; Grimm et al. 1973) von der Auswahl der Skalen flir 
die Konzeptbeurteilungen abzuhangen. 

Herrmann (1962) berichtet iiber zwei voneinander unabhangige Tendenzen 
der Praferenz von Skalenstufen: ,,Urteilsnuanciertheit“ als Wahl der Stufen 1 
und 7 gegeniiber 3 und 5 und ..Fraktionierung des Bezugssystems“ als Wahl 
von 4 gegeniiber 2 und 6 bei der siebenstufigen Skala. Diese Faktoren des 
semantischen Differenzierens werden als genuine Aspekte von Bedeutungsur- 
teilen und nicht als Fehlerkomponenten aufgefafit. Die Diskussion Herrmanns 
legt eher eine Abhiingigkeit von der Art der beurteilten Konzepte als eine 
differentiell-psychologische Interpretation nahe. Demgegeniiber resiimiert Pea- 
body (1962, 73): 

.Individual differences in average extremeness show wide generality across different 
extremeness scores. This generality extends to responses in opposing directions - 
suggesting that the differences primarily represent response sets, and only to a second- 
ary degree actual differences in intensity. 1 

Wenn man Gruppenmittel als ,wahre Werte 1 betrachtet. lassen sich - wie 
Kahneman (1963) gezeigt hat - die individuellen Abweichungen bei SD- 
Daten als Uber-/Unterschatzungstendenzen interpretieren. Osgood et al. 
(1957, 226 ff) diskutieren sehr ausfiihrlich Befunde, derartige Urteilstendenzen 
als personlichkeitsspezifische Stile aufzufassen. Die in neueren Untersuchun- 
gen berichteten Beziehungen zu Merkmalen wie Alter und Geschlecht (Maltz 
1963; Light et al. 1965; Long et al. 1968; Schluderntann & Schludermann 1969; 
Washington 1975), IQ (Neuringer 1963; Brod et al. 1964; Light et al. 1965; 
Strieker & Zax 1966; Long et al. 1968), Ambiguitatstoleranz (Mogar 1960; 
Rydell 1966; Chen 1977), psychischen Storungen (Neuringer 1963; Zax et al. 
1964; Marks 1965; Arthur 1966; Priest 1971) sind allerdings uneinheitlich. 
Washington (1975) stellt fest, daB aufgrund unterschiedlicher methodischer 
Ansatze die Vergleichbarkeit der Befunde im Hinblick auf verschiedene Kon- 
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zepte und Skalen kaum gegeben sei. Er empfiehlt, entsprechende Analysen ftir 
einzelne Konzepte und dimensionsgleiche Skalen (auch) getrennt durchzufuh- 
ren. Zwar hat Arthur (1966) bei einer studentischen Vpn-Stichprobe hohe 
Korrelationen ftir Haufigkeiten extremer Markierungen tiber ein Vierwochen- 
Intervall und liber verschiedene Konzepte gefunden. Die Stabilitat der Extre- 
misierungstendenz scheint nach dem Befund von Snyder & Wiggins (1970) 
aber sowohl im Hinblick auf Skalen als auch Konzepte eingeschrankt: die 
Differenzierung zweier Personentypen (als Ergebnis einer dreimodalen Fakto- 
renanalyse) basierte auf Uberbewertungen bei den E-Skalen durch die erste 
idealisierte Person, wahrend der zweite Personentyp durch ahnliche Tenden- 
zen bei den P-A-Skalen charakterisiert war. Allerdings waren diese allgemei- 
nen Tendenzen von Konzept zu Konzept verschieden. Long et al. (1968) 
zufolge verwenden Schiiler bei Selbst-Ratings ftir E- und P-Skalen unter- 
schiedlich stark Extremkategorien, und zwar Madchen starker bei E und Jun- 
gen starker bei P. 

Personen(gruppen) unterscheiden sich im AusrnaB der Verwendung extremer 
Skalenpositionen. Obwohl diese Tendenz systematisch zu sein scheint, lassen 
sich ihr keine spezifischen Persondispositionen zuordnen. Sie scheint von 
Konzept-Skalenauswahl abhangig zu sein. Heise (1969) schlagt vor, ihr (in 
Experimented) durch randomisierte Zuordnung der Vpn oder durch statisti- 
sche Kontrolle Rechnung zu tragen. Johnson & Wall (1969) kritisieren die 
Anwendung von .Ausfilterungs- ‘ und anderen statistischen Korrekturtechni- 
ken: Wenn die Extremheit eines Urteils zwar nicht eindeutig als Intensitats- 
maB aufgefaBt werden kann, andererseits aber nicht unabhangig von der Be- 
deutung eines beurteilten Konzeptes variiert, wird durch derartige Techniken 
die Bedeutungseinschatzung eines Konzepts mitverandert. 



2. 3. 1.2 Soziale Erwiinschtheit 

Die Kontamination von Urteilsverschiebung und Bedeutungsaspekten wird in 
einer systematischen Urteilstendenz deutlich, die empirisch nicht inimer ohne 
nahere Analyse von der Extremisierungstendenz zu unterscheiden ist (vgl. die 
zitierte Untersuchung von Long et al. 1968) und als Interpretationsalternative 
bei BedeutungsmaBen die Validitat einer SD-Bedeutungsinterpretation in Fra- 
ge stellen kann: Die Extremheit der Urteile hangt auch davon ab, wie sehr die 
Konzepte und Skalen sozial normierte Beurteilungssachverhalte und -gesichts- 
punkte betreffen. Sozial positiv bewertete Worter weisen hoher polarisierte 
BedeutungsmaBe auf als negative, wobei Polarisierung und Evaluation kon- 
fundiert erscheinen (Howe 1965). Nickels & Shaw (1964) stellten fest, daB die 
Korrelation zwischen E-Faktoren-Scores (als EinstellungsmaBen) und MaBen 
von Thurstone-Skalen je nach dem Grad der Bedeutsamkeit (salience) der 
beurteilten Konzepte fur Beurteiler variierte. Personen seien sozialen Norrnie- 
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rungen des Urteilsverhaltens bei salienten Konzepten starker ausgesetzt und 
die wirkten sich beim transparenteren EinstellungsmaB, dem SD, starker aus. 

Krieger (1963) hat die soziale Erwunschtheit des Urteilsmediums ,Skalen‘ kon- 
trolliert; sie fand fur balancierte Skalen geringere Beitrage zur E-Dimension. 
Ford & Meisels (1965) beziffern das AusmaB der Korrelation zwischen MaBen 
sozialer Erwunschtheit von SD-Adjektivpaaren und Ladungen auf der E-Di- 
mension mit .88 bis .92, bei Ladungen auf P und A dagegen mit nur .13 bis 
.22. Nun belegen derartige Befunde lediglich, daB fur die Bedeutungsdifferen- 
zierung auf der E-Dimension (im Unterschied zu P-A) Merkmale konstitutiv 
sind, die Sachverhalte nicht unwesentlich durch die unterschiedliche Zuord- 
nung (sozial) erwilnschter Eigenschaften charakterisieren. Diese empirische 
Korrespondenz impliziert noch keineswegs die Feststellung systematischer 
Urteilsverzerrungen. wie Heise anzunehmen scheint. (Revenstorff (1971, 196) 
halt gar - konsequenterweise - das Vorkommen eines evaluativen Faktors 
als nachteilig fur den Vergleich von Personlichkeitsbeschreibungen.) Als Ten- 
denzfehler ist die (differentielle) Abhangigkeit des Urteilsverhaltens von der 
sozialen Erwunschtheit der Konzepte und/oder der Skalen zu belegen. 

Meisels & Ford (1969) haben in einer weiteren Arbeit personspezifische Ur- 
teilstendenzen i. S. sozialer Erwunschtheit nachzuweisen versucht. Die berich- 
teten Korrelationskoeffizienten zwischen verschiedenen derartigen Tendenz- 
maBen und MaBen fur EPA bestatigen die Unabhangigkeit von P und A und 
lassen - entgegen der Interpretation der Autoren - allenfalls eine schwache 
Beziehung zu den E-MaBen erkennen. 

Wenngleich ungewohnliche personspezifische Tendenzen, Urteile gemaB ihrer 
sozialen Erwunschtheit abzugeben, filr die SD-Technik nicht belegt sind, wird 
man deshalb eine entsprechende Fehlerquelle nicht negieren konnen (vgl. dazu 
Voyce & Jackson 1977). Insbesondere bedarf der Zusammenhang von sozialer 
Erwunschtheit mit der E-Dimension einer naheren Begrilndung. 

Fur die Erklarung eines moglichen Tendenzfehlers der beschriebenen Art 
konnte der Bezug auf die in der Tradition der Einstellungsforschung und der 
Urteilstheorien untersuchten Polarisierungseffekte niitzlich sein. Beurteiler, 
ftir die ein Urteilsgegenstand ausgepragten Wertbezug aufweist, tendieren da- 
zu, die (Un)Giinstigkeit von Feststellungen iiber diesen Sachverhalt polarisier- 
ter zu beurteilen (Hovland & Sherif 1952; Zavalloni & Cook 1965; Eiser & 
Stroebe 1972; Eiser 1971a, 1971 b; Eiser & Mower White 1974). Jones 
(1969) hat gezeigt, daB die Bedeutung des am meisten akzeptierten Beurtei- 
lungsstatements erheblich starker durch die E-Komponente charakterisiert ist 
als die Bedeutung des am meisten abgelehnten - ein Hinweis, daB positiver 
Wertbezug sich wie social desirability und evtl. auch saliency durch Polarisie- 
rung auf der E-Dimension auswirkt. Im Unterschied dazu stellte Jones signifi- 
kant hohere Ratings bei den abgelehnten Statements auf der P-Dimension fest. 
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Auch die Theorien zur Wahrnehmungs- und sozialen Akzentuierung (vgl. Irle 
1975; Lilli 1975), so die Reizklassifikationstheorie Tajfels (1959, 1975), beto- 
nen die Polarisierung von Urteilen in Abhangigkeit von einem Wertbezug. 



2.3.2 Zufallsfehler - Reliabilitat von SD-Urteilen 

Osgood et al. (1957, 126ff) haben mit groBer Sorgfalt die Reproduzierbarkeit 
der wichtigsten BedeutungsmaBe aufgrund von MeBwiederholungen unter- 
sucht. (Wegen der z.T. geringen Streuungen der UrteilsmaBe ilber die Perso- 
nen halten sie die Korrelationstechnik zur Reliabilitatseinschatzung fur unge- 
eignet.) Sie unterscheiden die Aspekte der Reproduzierbarkeit auf den Ebenen 
der Skaleneinstufungen und der Faktoren-Scores, sowie der von letzteren ab- 
hangigen Konzept-BedeutungsmaBe im semantischen Raum. Die berichteten 
5%-Signifikanzgrenzen ftir Differenzen zwischen je 2 Erhebungen liegen ftir 
die einzelnen Personen und Skalen (7 Stufen) bei mehr als 2 Skaleneinheiten, 
fur Faktoren-Scores einzelner Personen zwischen 1 und 1,5 Skaleneinheiten (je 
nach Faktor; E am stabilsten) und ftir gruppenspezifische Faktoren-Scores 
(Gruppenmittel) bei etwa 0,5 Skaleneinheiten. Die mittleren absoluten Abwei- 
chungen zwischen 2 Erhebungen bei den verschiedenen Skalen liegen im 
Durchschnitt bei etwa 3/4 Skaleneinheiten (vgl. Osgood et al. 1957; Piaggio 
1968). 

Da der Spielraum ftir Diskrepanzen zwischen den MeBwiederholungen von 
der Extremitat der ersten Messung abhangig ist, bezieht Norman (1959) die 
beobachteten Diskrepanzen auf die maximal moglichen. Die auch schon von 
Osgood et al. berichteten geringen Konsistenzen der einzelnen Ratings lassen 
sich nach Norman durch Faktoren-Scores leicht verbessern, wenn mindestens 
drei Skalen zugrunde gelegt werden. (Dieser Befund basiert allerdings auf 
Daten, in denen die Skalenzahl nicht unabhangig von der Art der Bedeutungs- 
dimensionen variiert wurde. Im iibrigen laBt sich der MeBfehleranteil natiirlich 
durch .Test'verlangerung reduzieren (Piaggio 1969). Bei dimensional reprasen- 
tativ ausgewahlten Skalen sind allerdings in der Regel nur wenige geeignete 
Indikatoren verfiigbar; auch diirfte der Gewinn gering sein.) Wahrend die 
D(istanz)-MaBe filr einzelne Skalen und Personen zwischen Konzepten extrem 
geringe Stabilitat aufwiesen, korrelierten D-MaBe, gemittelt ilber die Perso- 
nen, sowie gemittelte Skalenmarkierungen zwischen den beiden Messungen 
hoch. Die Stabilitat von Ratings ist nach Norman sowohl bei verschiedenen 
Konzepten wie bei verschiedenen Personen unterschiedlich. 

DiVesta & Dick (1966) haben eine umfangreiche Untersuchung zur Reliabilitat 
von SD-Daten bei Schulkindern durchgefilhrt, mit zwei Messungen in unmit- 
telbarem zeitlichem Zusammenhang bzw. im Abstand von etwa vier Wochen. 
Unter der Bedingung des 4-Wochen-lntervalls betrugen die durchschnittlichen 
Korrelationskoeffizienten filr die einzelnen Skalen ilber die Schulklassen .27 
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bis .56 und flir einzelnen Klassen aufsteigend von .33 (in der 2. Klasse) bis .55 
(7. Klasse). Die Hohe der Koeffizienten stieg bei Addition von jeweils zwei 
dimensionsgleichen Skalen-Werten zu Faktoren-Scores, nunmehr zwischen 
35 und .86 variierend, wobei ab der 4. Klasse eine deutliche Steigerung zu 
beobachten war. Korrelationen fiir MaGe der Bedeutungssattigung ini semanti- 
schen Raum lagen etwa im Bereich von .50 bis .70. Fiir diese insgesamt unbe- 
friedigenden Ergebnisse werden von den Autoren Bedeutungsanderungen der 
Konzepte zwischen den MeBzeitpunkten geltend gemacht: Die Koeffizienten 
waren fiir Erhebungen mit einem Zeitintervall von einem bis zwei Tagen er- 
heblich hoher. Fiir die untersuchten Klassenstufen 3, 5 und 7 betrugen die 
durchschnittlichen Korrelationen iiber die Skalen .56. .56 bzw. .67, fiir die 
einzelnen Skalen .42 bis .77. Faktoren-Scores fiir Personen korrelierten bei 
den EPA-Faktoren zwischen .62 und .84 (am hochsten fiir E) und fiir Konzep- 
te gemittelt iiber Personen zwischen .73 und .94. Entsprechend erhoht sind 
auch die Korrelationen fiir die Bedeutungs-DistanzmaGe. Die Autoren bewer- 
ten diese Ergebnisse als Beleg fiir akzeptable Stabilitat von SD-Daten, eine 
Wtirdigung, die allenfalls angesichts des Alters der untersuchten Personen 
akzeptabel erscheinen mag. 

Eher befriedigende ( Alpha)Koeffizienten werden von Oles (1973) berichtet: 
sie liegen fiir jeweils sechs E-Skalen iiber neun Konzepte bei Dritt- bis Fiinft- 
klaBlern bei .86 bis .92 und summiert iiber die Skalen innerhalb der Konzepte 
bei .54 bis .72. Als Stabilitat iiber sieben Monate sind - angesichts der unter- 
suchten Altersgruppen immerhin noch - Koeffizienten von 35 bis .44 fiir 
Konzeptsummen bei bedeutungsstabilen Konzepten ausgewiesen. 

Miron (1961) betont zu Recht, daB Einschatzungen von Eigenschaften eines 
SD deni Umstand Rechnung tragen miissen, daB ein SD nicht als ein spezifi- 
scher Test, sondern als eine Technik anzusehen sei. Zu den variablen Merknia- 
len dieser Technik gehoren auch die Instruktionsbedingungen. Er variiert 
systematisch die Faktoren Schnelligkeit der Bearbeitung und Rekapitulation 
der Markierungen des ersten Durchgangs (jeweils in zwei Stufen) im unmittel- 
bar darauffolgenden Retest. Faktoren-Scores iiber drei bis ftinf Skalen fiir 
EPA-Faktoren, gemittelt iiber die Vpn, korrelieren iiber 20 Konzepte unter 
alien Bedingungen mit mindestens .97. Eine Varianzanalyse der Test-Retestab- 
weichungen fiir die gemittelten Konzept-Scores weist einen signifikanten 
Haupteffekt zu Lasten der Riickruf-Bedingung: die Vpn konnten, wenn sie 
entsprechend instruiert wurden, Markierungen erinnern. Dieser Befund laBt 
die Bevorzugung der unmittelbar erfolgten Retest-Messung bei der Interpreta- 
tion der Reliabilitat von SD-Messungen durch DiVesta & Dick (1966) als 
problematisch erscheinen und belegt die Berechtigung der von Gulliksen 
(1958) bereits formulierten Forderung, Parallelversionen zu verwenden; in 
dieser Flinsicht ist die Arbeit von Coyne & Flolzman (1966) eine Ausnahme 
geblieben. 
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Abweichungen der Skalen von klarer Bipolaritat (fragwilrdige Gegensatzlich- 
keit der polaren Adjektive) und Konzept-Skalen-Kombinationen, die das Auf- 
treten von Interaktions-Effekten begiinstigen, scheinen das SD-Urteilsverhal- 
ten kauni zu beeinflussen. Vidali (1976) fandunter diesen Bedingungen keine 
nennenswerten Unterschiede bei ReliabilitatsmaBen fiir einzelne Rater (urn 
.50) und fiir Gruppen von Urteilern (um .97). Maruyama (1971) zeigte, daB 
die mittlere Antwortkategorie der Skalen Reliabilitats- und StabilitatsmaBe 
beeinflussen kann: Die von ihm berechneten Koeffizienten waren hoher, wenn 
o-stufige Skalen (ohne Mittelpunkt) verwendet wurden, im Vergleich zu 
7-stufigen Skalen. 

Auf Reliabilitat im Sinne hoher Stabilitat und Reproduzierbarkeit der Faktor- 
ladungen fiir die charakteristischen EPA-Skalen, und zwar fiir Korrelationen 
individueller wie iiber Personen gemittelter Ratings bei 25 Konzepten und 
einer reprasentativen amerikanischen Stichprobe, verweist Tzeng (1975). DaB 
hohe Skalen-Homogenitat, als ReliabilitatsmaB ausgedriickt durch einen Ge- 
neralisierbarkeits-Koeffizienten (vgl. Gleser et al. 1965), erreichbar ist, bele- 
gen die konzept- und personspezifisch konstruierten SDs von Fuchs (1973) 
und Schafer (1975a, 10). 

Es ist Fuchs (1975, 84f) zuzustimmen, der die Ergebnisse der einschlagigen 
Arbeiten folgendermaBen zusammenfaBt. 

(1) ,,Geht man von den einzelnen Beurteilern aus, ist die Reliabilitat unter 
alien Aspekten - obwohl deutlich besser als nach dem Zufall zu erwarten 
ware - nicht zufriedenstellend. Geht man dagegen von Gruppenmittel- 
werten aus, erhalt man - verglichen mit anderen subjektiven Tests - 
sehr zufriedenstellende Reliabilitatswerte. 

(2) Es gibt deutliche Unterschiede zwischen Beurteilern (z.B. urteilen altere 
Kinder konsistenter als jiingere), Skalen (z.B. werden Skalen der Bewer- 
tungsdimension konsistenter verwendet als andere) und Konzepten (z.B. 
werden ,objektive Konzepte‘ konsistenter eingeschatzt als ,subjektive\ 
,nicht-neutrale‘ konsistenter als ,neutrale‘). 

(3) Dimensionswerte, d.h. iiber alle auf einen bestimmten Faktor hoch und 
moglichst rein ladenden Skalen - evtl. unter Beriicksichtigung der La- 
dungshohe - gebildete KonzeptmeBwerte, sind zuverlassiger als Item- 
Einstufungen . . . 

(4) Die Reliabilitat nimmt offensichtlich ab mit dem zeitlichen Abstand zwi- 
schen Test und Retest. “ 
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3. Metrische Eigenschaften von SD-Skalen: 

, Statik ’ cles semantischen Raumes 

Es ist bereits erwahnt worden, daB die SD-Technik meBtheoretisch zunachst 
keinen anderen Status beanspruchen kann als andere Rating-Verfahren: Es 
handelt sich um Messungen ,per fiat‘, numerische Indizierung ohne Losung 
des Reprasentationsproblems. 1m Hinblick auf die Vertretbarkeit von Trans- 
formationen im ProzeB der Analyse von SD-Daten (einen Uberblick Uber die 
gangigen SD-spezifischen Techniken geben Diehl & Schafer 1975) sind bereits 
von Osgood et al. (1957) einige metrische Eigenschaften der Skalen diskutiert 
worden, die firr den Architekten eines semantischen Raumes als Probleme der 
Statik gelten konnen. Zu den grundlegenden metrischen Annahmen, die als 
Merkmale der Skalen Eigenschaften des semantischen Raumes betreffen, geho- 
ren Bipolaritat, Intervallgleichheit und Nullpunktlage gemaB der numerischen 
Kodierung. 

3.1 Bipolaritat 

Mit Bezug auf die Charakterisierung der bedeutungsspezifischen Vermitt- 
lungsreaktionen als reziprok-antagonistisch ist fur die Bedeutungsdimensio- 
nen und die sie konstituierenden Skalen zu fordern, daB ihre Pole Gegensatze 
auf eindimensionalen Kontinua reprasentieren. 

Kjeldergaard & Higa (1962) konnten zeigen, daB das Wiedererkennen von 
Wortern durch den Grad ihrer Polarisierung im semantischen Raum begttn- 
stigt wird. Aufgrund von Analysen der Enkodierung und Speicherung von 
Wortern im Kurzzeitgedachtnis sowie des Reproduzierens lassen sich die Pole 
der EPA-Dimensionen als verschiedene Klassen der Kodierung von Wortern 
auffassen (Market et al. 1966; Wickens & Clark 1968; Wickens 1970; Kroes & 
Libby 1971). Turvey et al. (1969) und Turvey & Fertig (1970) konnten zeigen, 
daB die Unahnlichkeit von Wortern zwischen und die Ahnlichkeit in diesen 
Klassen auf die Polaritat der EPA-Dimensionen zuruckgefuhrt werden kann. 
Nach Befunden von Haygood (1966) und Taylor & Haygood (1968) wurden 
semantische Konzepte um so schneller gemaB den EPA-Dimensionen katego- 
risiert, je starker die Kategorien polarisiert waren. 

Derartige Befunde stimmen zwar mit der Annahme uberein, daB die beirn 
semantischen Differenzieren verwendeten Dimensionen als bipolar zu konzi- 
pieren sind. Sie erubrigen aber nicht die Priifung, ob, in welchem AusmaB und 
unter welchen Bedingungen Bipolaritat als ein Merkmal von SD-Skalen und 
-Dimensionen gilt. 

Aufgrund von Analysen der Assoziationen fur die haufigsten englischen und 
die Standard-SD-Adjektive kommt Deese (1964) zu dem Ergebnis, daB das 
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Schema polarer Gegensatze -wenn auch nicht fur alle Adjektive - durchaus 
im Sprachverhalten begriindet ist. Die Ergebnisse weisen die SD-Polaritaten 
iiberwiegend als linguistische Kontraste aus. Carter et al. (1969), die ihre Vpn 
auch aufforderten, das Antonym zur nur einseitig markierten Skala einzuset- 
zen, fanden fiir die 15 am hochsten ladenden SD-Skalen in der Mehrzahl die 
von Osgood et al. (1957) verwendeten wieder, in anderen Fallen aber bemer- 
kenswerte Abweichungen. Ross & Levy (1960) bezweifeln, daB Adjektive 
polarer Anordnung im Hinblick auf ihre semantische Eindeutigkeit gleich und 
entgegengesetzt sind (vgl. Terwilliger 1962). Im Unterschied zur nominalen 
Antonymie fordert Mordkoff (1963, 1965), daB polare Gegensatzpaare auch 
funktional antonym sein miiBten, derart, daB sich SD-Beurteilungen der ,bi- 
polaren 1 Adjektive (Konzepte) als symmetrische und aquidistante Profile zum 
Nullpunkt - zumindest fiir die einzelnen Skalen, wenn schon nicht iiber die 
Skalen hinweg - darstellen lieBen. Die mittels Hotellings T 2 gepriiften Ab- 
weichungen von dieser Bedingung erwiesen sich in einer Vielzahl von Fallen 
als signifikant, nominell antonyme Adjektivpaare also keineswegs gesichert 
auch als funktional gegensatzlich. Bei systematischer Variation der konzept- 
spezifischen Information bilanzierten Malmstrom & French (1963) im Hin- 
blick auf die Symmetric von evaluativen SD-Skalen giinstiger: Die Polaritat der 
Urteile korrespondierte eng mit der Polaritat der auf E-Skalen gegebenen Kon- 
zept-Information. 

Auch Andersons (1970) Ahnlichkeits-Ratings von 12 EPA-Adjektiven bestati- 
gen - trotz bemerkenswerter Variation bei Polaritaten und Personen - im 
wesentlichen die Angemessenheit der Bipolaritats- Annahme, und zwar so- 
wohl im Hinblick auf die GroBe der Distanzen zwischen bipolaren Adjekti- 
ven, wie auch auf die Aquidistanz vom Ursprung. 

Green & Goldfried (1965) argumentieren, daB die vorgegebene bipolare Eti- 
kettierung der Rating-Skalen die Uberprlifung einer dementsprechenden Bipo- 
laritat der Urteilsdimensionen nicht erlaubt. Die Bipolaritat der EPA-Struktur 
sei durch die Anordnung der Adjektivskalen erzwungen. Sie selbst prasentier- 
ten ihren Vpn die Antonyme jeweils einzeln (unipolar) zur Beurteilung von 
Konzepten und konstatierten erhebliche Abweichungen von funktionaler Bi- 
polaritat bei EPA-Skalen, die sich in Null- oder positiven Korrelationen zwi- 
schen ,gegensatzlichen‘ Adjektiven auBern. Demgegenliber hatte Ertel (1964) 
aufgrund einer ahnlichen Vorgehensweise der Korrelierung von Daten unipo- 
larer Skalen diejenigen als faktoriell gegensatzlich gefunden, die bereits intuitiv 
als Gegensatze angesehen worden waren. Nach Green & Goldfried (1965) sind 
alle Tendenzen von gegensatzlichen Adjektiven, Pole einer einzigen Skala zu 
bilden, konzept- oder konzeptklassenabhangig. Ausgehend von der groBeren 
Anfalligkeit von unipolaren Rating-Skalen fiir Zustimmungs-Tendenzfehler 
berichtet Bentler (1969) fill' Adjektiv-Zuordnungen zu den Polen der EPA- 
Dimensionen ahnliche Korrelationskoeffizienten wie Green & Goldfried 
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(1965), die sich jedoch dramatisch zur Ubereinstimmung mit der Bipolaritats- 
Annahme verandern, wenn Zustimmungstendenz als die Gesamtzahl der Ad- 
jektive, die iiber alle sechs Pole verwendet wurden, kontrolliert wurde. Bipo- 
laritat von Skalen, die die Bipolaritat der EPA-Dimensionen reprasentieren 
sollen, haben Atwood & Falkenberg (1971) f Ur unipolare SD-Ratings nach 
Auspartialisierung von Zustimmungstendenz als die Summe aller Skalenmar- 
kierungen iiber alle Konzepte fur jeden Beurteiler weniger deutlich und alien- 
falls fur konkrete Konzepte (Makkaroni, Akkordeon, Automobile) im Unter- 
schied zu abstrakten (Gluck, Notwendigkeit, Theorie) gefunden. 

Gegenuber Erklarungen der beobachtbaren Abweichungen von der funktiona- 
len Bipolaritatsannahme (i.S. von Skalensymmetrie) durch Person- oder Kon- 
zept-Merkmale hat Gilpin (1973) lexikalische Markierungseffekte, eine struk- 
turelle Asymmetrie der Skalen, als Bedingung verantwortlich gemacht. Er 
bezieht sich auf das Prinzip lexikalischer Markierung (Clark 1969 ). Danach 
werden solche Adjektive als ,,unmarkiert“ bezeichnet, die in zweifacher Weise 
verwendet werden: , nominal 1 , insofern sie das gesamte Kontinuum einer bipo- 
laren Skala bezeichnen (z.B. ,gunstig‘ das Giinstigkeitskontinuum von extrem 
gimstig bis extrem ungiinstig) und ,kontrastiv‘, insofern sie eine Spezifizierung 
im Hinblick auf einen Standard oder Kontrast implizieren (z.B. giinstig im 
Unterschied zu ungiinstig). Markierte Adjektive weisen demgegeniiber nur 
eine, namlich kontrastive Bedeutung auf (z.B. ungiinstig). Auf die Frage wie 
gut, interessant oder wichtig z.B. ein neues Produkt ist, wird die Antwort 
einer nominalen oder kontrastiven Verwendung dieser Adjektive entsprechen; 
der Befragte ist auf die kontrastive Bedeutung festgelegt, wenn die Frage lautet 
wie schlecht, uninteressant oder unwichtig das Produkt ist. Differenzen der 
UrteilsmaBe auf unmarkierten und markierten unipolaren Skalen zu denen auf 
ihren bipolaren Skalen waren fur die markierten Adjektive signifikant groBer, 
mithin einen Effekt der Asymmetrie erzeugend. Aufgrund des Umstandes, 
daB unmarkierte Adjektive iiberwiegend evaluativ positive Bedeutung haben 
und markierte negative (Flamilton & Deese 1971 ) ist dieser Befund auch fur 
eine entsprechend alternative Interpretation offen. 

Kaplan (1972) kritisiert, daB aufgrund der Definition der Mittelkategorie 
durch Osgood et al. (1957, 29 und 83) Irdifferenz und Ambivalenz konfun- 
diert sind. Osgood habe zwar die Gegensatzlichkeit der Adjektivpaare als 
Reprasentanten der reziprok-antagonistischen Tendenzen konzipiert, den Vpn 
wiirde jedoch die Mittelkategorie als ,weder-noch' und als ,sowohl-als auch‘- 
Kategorie erlautert. Auf diese Weise wurden ambivalente Urteilstendenzen, 
statt als Markierungen auf beiden Seiten der Skala aufzutreten (was mit der 
Konzeption reziprok-antagonistischer Prozesse nicht vereinbar ist), in der 
Neutralkategorie aufgefangen. (Dazu ist zu bemerken, daB Osgood diesen 
Sachverhalt nicht nur gesehen, sondern theoretisch postuliert hat, S.O., S. 
157). Mit Bezug auf die evaluativen SD-Skalen schlagt Kaplan eine Trennung 
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der Antonyme als orthogonale (liking-disliking) Komponenten vor, die jeweils 
durch unipolare Ratings (0 - 3 bzw. -3 - 0) zu erfassen sind und - zusatz- 
lich zu den ublichen bipolaren SD-Daten - eine unabhangige Einschatzung 
des AusmaBes von Ambivalenz erlauben sollen. 

Die vorliegenden Befunde zur Bipolaritats-Annahme sind Uberaus uneinheit- 
lich. Dieser Sachverhalt laBt sich kaum zureichend mit den verwendeten, un- 
terschiedlichen Operationalisierungen der Bipolaritat begriinden, da auch ahn- 
liche Operationalisierungen zu unterschiedlichen Ergebnissen fiihren und ver- 
schiedene Operationalisierungen zu ahnlichen Ergebnissen. Vielmehr scheinen 
Varianten der Kombination von Skalen mit Konzepten daflir verantwortlich 
zu sein. Der Gegensatz von ,gut' ist nicht invariant ,schlecht‘, sondern u.U. 
auch ,bose‘ (Brandt 1972). Da die Angemessenheit des polar-gegensatzlichen 
Schemas nicht grundsatzlich in Zweifel steht, sondern konkrete Formulierun- 
gen die Zweifel an der Geltung der Bipolaritats-Annahme begriinden, bedarf 
die Wahl von Antonymen in jedem Falle einer empirischen Begriindung, und 
zwar unter Beriicksichtigung der spezifischen Urteiler- und Konzeptpopula- 
tion. 



3.2 Intervallgleichheit 

Bei der Verarbeitung von SD-Daten wird - sowohl von Osgood & Cie, wie 
von anderen SD-Raumkonstrukteuren und -Anwendern - in aller Regel da- 
von ausgegangen, daB die Antwortkategorien der (meist 7-stufigen) Skalen das 
bipolare Kontinuum nach gleichen Intervallbreiten aufteilen. 

Soweit Adverbien die Kategorien auf den Beurteilungs-Skalen definieren, kon- 
nen fur die von Osgood et al. (1957, 1975) verwendeten (slightly, quite, extre- 
mely) etwa gleiche Intensitatszuwiichse angenommen werden (Cliff 1959; vgl. 
auch Howe 1962, 1966 a, 1966 b). Vergleiche der durch die numerische Kodie- 
rung bestimmten Kategoriengrenzen mit solchen, die aufgrund einer Skalie- 
rung nach dem Gesetz des kategorialen Urteils bestimmt sind, sind von Mes- 
sick (1957), Revenstorff (1973a) und Fuchs (1974) durchgefuhrt worden. Die- 
se Arbeiten unterscheiden sich im Hinblick auf die Anzahl der zur Beurteilung 
gegebenen Kategorien (7,10 bzw. 9) und die Skalen- (und Konzept-) Auswah- 
len (Standard Osgood, Standard Ertel, bzw. konzeptspezifisch). Die Ergeb- 
nisse stimmen in den wesentlichen Punkten uberein: 

- Die Abweichungen von den vorgegebenen gleicherscheinenden Intervallen 
sind betrachtlich: Die Intervallbreiten verengen sich zur Skalenmitte hin 
und erscheinen besonders auf der positiv markierten Seite der Skalen ge- 
dehnt. Bei Revenstorff (Skala ohne Mittelpunkt) und Fuchs erscheint auch 
die mittlere Kategorie gedehnt. Fuchs berichtet - im Unterschied zu Mes- 
sick - iiber erhebliche Variability zwischen den Skalen. 
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Die Regression der skalierten auf die angenommenen Intervallgrenzen ist 
generell linear: Die entsprechenden Korrelationskoeffizienten liegen bei 
alien Autoren um .97 und dariiber. 

Nach diesen Befunden erscheinen insbesondere die auf dem euklidischen Di- 
stanzmodell basierenden D-MaBe (Osgood & Suci 1952; Cronbach & Gleser 
1953; Osgood et al. 1957) problematisch, da sie Intervallgleichheit auf den 
Skalen und liber die Skalen voraussetzen (vgl. Diehl & Schafer 1975). 

Die von Revenstorff (1973a, 125) geauBerte Erwartung, „daB man in einer 
Faktorenanalyse der skalierten Durchschnittsprofile sehr ahnliche Aussagen 
iiber den konnotativen Raum gewinnen wiirde, wie bei der Faktorisierung der 
unskalierten Profile" wird durch einen entsprechenden Befund von Fuchs 
(1974) auch empirisch belegt. Allerdings geht in die Erwartung die Vorausset- 
zung ein, daB die verwendeten Skalen in einem gemeinsamen Nullpunkt sym- 
metrisch sind. 



3.3 Nullpunktlage 

Die Arbeiten von Messick (1957) und Fuchs (1974) enthalten auch Hinweise, 
daB der subjektive Nullpunkt der Skalen nicht mit dem Skalenmittelpunkt 
zusammenfallt, sondern leicht zur Seite der ,positiven‘ Skalenmarkierung ver- 
schoben ist. Dem entsprechen im Zusammenhang mit der Bipolaritats-Annah- 
me berichtete Befunde der Skalen-Asymmetrie. Anderson (1970) hat die Win- 
kel bestimmt, die die bipolaren Adjektiv-Punkte mit dem Nullpunkt bilden: 
Sie sind nach seinen Befunden befriedigend zum Nullpunkt distanz-symme- 
trisch. Die Gemeinsamkeit des Nullpunktes setzt im Ursprung Cosinus-Werte 
von -1.00 voraus, d.h. die Geraden zwischen den polaren Punkten bilden im 
Nullpunkt einen Winkel von 180°. Aufgrund der beobachteten Abweichung 
konstatiert Anderson, daB die Ergebnisse allenfalls als ein schwacher Beleg ftir 
die Annahme eines gemeinsamen Nullpunktes angesehen werden konnen. 

Wenn Dawes (1977) demonstriert, daB die korrelations-analytische Behand- 
lung von gemittelten Rating-Urteilen, einschlieBlich solcher auf einer SD- 
Skala, bei GroBenschtitzungen zu Ergebnissen fiihrt, die Messungen auf der 
Basis einer Reprasentationstechnik entsprechen, so mag dies als Beleg dafiir 
gelten, daB RatingmaBe ntitzlich verwendet werden konnen. Firr die SD-Tech- 
nik ist dieser Anwendungsfall aber zumindest uncharakteristisch; der schon 
von Heise (1969) beklagte Mangel an Forschung zu Problemen der Metrik von 
SD-Skalen wird durch derartige Befunde kaum geringer. 
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4. Wahl von SD-Skalen zur Exploration von Bedeutungs- 
Rdumen: Konstruktion von Semantischen Differentialen 

Bei der Verwendung eines SDs als Instrument zur Erfassung der Bedeutung 
von Konzepten kommt der Antwort auf die beiden folgenden Fragen erhebli- 
che Bedeutung zu: 

- Wird die EPA-Struktur als ein angemessenes Bezugssystem zur Bedeu- 

tungsdifferenzierung akzeptiert? 

- Lassen sich die relevanten Bedeutungsdimensionen durch einen Standard- 

satz von SD-Skalen reprasentieren? 

Wenn - wie bei einem GroBteil der SD-Verwendungen - beide Fragen 
bejaht werden, wird der Forscher von aufwendigen, technischen Konstruk- 
tionsarbeiten entlastet, und die Wahl von SD-Skalen wird zu einer Komposi- 
tions-Aufgabe: Das Material bilden die Ladungsmuster der Skalen aufgrund 
vorliegender Faktorenlosungen. Als semantische ,Raum-Fahre‘ ist das SD - 
u.U. bei Modifikation der auBeren Verkleidung - jederzeit wiederverwen- 
dungsfahig. 

Angesichts der Beobachtungen von Konzept-Skalen-Interaktionseffekten und 
ihrer Erklarung durch Bedeutungsverschiebungen bei den Skalen empfehlen 
Osgood et al. (1957, 78 ff) beim Einsatz des SDs zur Analyse der Bedeutung 
spezifischer Konzepte die Wahl der Skalen auch unter dem Gesichtspunkt der 
Relevanz, der semantischen Stabilitat und der Bipolaritat im Hinblick auf die 
untersuchten Konzepte vorzunehmen. Durch diese Zusatzkriterien wird aller- 
dings nicht nur die Generality der Indikatorfunktion von SD-Skalen, sondern 
auch die Verfligbarkeit einer Standardliste von Beurteilungsmerkmalen, die 
zur Losung der Kompositions-Aufgabe herangezogen werden konnen, in Fra- 
ge gestellt: Die Erfilllung derartiger Kriterien kann nicht impressionistisch, 
sondern nur auf der Grundlage systematisch-empirischer Prtifung gewahrlei- 
stet werden. Vorliegende Merkmalslisten bieten dafiir keine hinreichende 
Grundlage. 

Aufgrund seiner - abweichenden - Einschatzung der Konzept-Skalen-Inter- 
aktionsproblematik konnte Ertel (1964, 1965a, 1965 b) eine Standardform des 
SDs vorschlagen, die den Anspruch genereller Verwendbarkeit erhebt, mit der 
Einschrankung allerdings, daB diejenigen Skalen aus der Merkmalsliste elimi- 
niert werden mttBten, die die Bedeutung eines Konzeptes ,im eigentlichen 
Sinne‘, d.h. nicht-metaphorisch, denotativ spezifizieren. (Diese Einschran- 
kung steht im Zusammenhang mit Ertels Bemiihen, die Art der mit dem 
Eindrucksdifferential zu erfassenden Bedeutungsprozesse als ,,emotionale“ zu 
prazisieren.) Abgesehen von der ungeregelten Handhabung derartiger Aus- 
schliisse zieht Ertel auf diese Weise offenbar nur eine restriktive Konsequenz 
aus dem von Osgood - wie vorher erortert - mit .denotativer Kontamina- 
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tion‘ bezeichneten Problem, das zur Erklarung von Konzept-Skalen-Interak- 
tionseffekten herangezogen wird und zur Abkehr vom Ideal eines universell - 
iiber alle Konzepte und Personen - verwendbaren Standard-Instruments 
fiihrte. 

Osgood et al. (1957, 76) betonen, daB es unangemessen sei, das SD als ein 
bestimmtes Instrument (als eine Art Test) zu apostrophieren. Vielmehr hande- 
le es sich um eine verallgemeinerbare Forschungstechnik, die jedeni For- 
schungszweck anzupassen sei. Diese vorsichtige Einschatzung wird von den 
Autoren allerdings nicht durchgangig vertreten - so z.B. anders bei der Dis- 
kussion des SD als verallgemeinerter Einstellungs-Skala (p. 189) - und von 
Anwendern haufig unbeachtet gelassen. Durch den Bezug auf spezifische Un- 
tersuchungsbedingungen wird im ubrigen das EPA-System nicht obsolet. Es 
ist auch nicht als eine problematische oder uberfliissige Zugabe anzusehen, wie 
es - explizit - bei Darnell (1970) bzw. - implizit - bei Hofstatter (1955, 
1959) geschieht. Vielmehr wird man - Miron (1969) zustimmend, wenn er 
behauptet, daB die EPA-Struktur des semantischen Raumes viel haufiger unter 
verschiedenen Bedingungen repliziert worden ist als die meisten anderen nicht 
unmittelbar beobachtbaren ,,Fakten“ unserer Wissenschaft - diese auch als 
Strukturmerkmal von SD-Skalen anzusehen haben. Abgesehen von den Ein- 
schrankungen bei der Reproduktion der EPA-Struktur ftir spezifische Kon- 
zepte/Konzeptklassen, die methodisch bedingt sein konnen, bedeutet die Ak- 
zeptierung der EPA-Struktur weder, daB diese Urteilsdimensionen alle Kon- 
zepte/Konzeptklassen in gleicher Weise charakterisieren, noch, daB sie bei 
alien Konzepten gleichermaBen durch identische Merkmale optimal reprasen- 
tierbar sind. Der EPA-Raum ist aufgrund des gewahlten Analyseansatzes ein 
.Durchschnitts '-Raum, der diejenigen Bedeutungsaspekte reprasentiert. die 
Beurteilern im Hinblick auf Konzepte gemeinsam sind. Die korrespondieren- 
den Bedeutungsprozesse, die diesen Raum konstituieren, manifestieren sich im 
Urteilsverhalten als ,,,gut“ reactions' (Osgood 1971, 37), d.h. abgesehen von 
der ,ausgemittelten‘ Variation, die durch sprachliche AuBerungen von Perso- 
nen im Hinblick auf Konzepte verursacht wird. Dariiber hinaus stehen auch 
Abweichungen bei der Dimensionalitat ftir Personen(gruppen) und Konzepte/ 
Konzeptklassen nicht notwendig im Widerspruch zur ,allgemeinen‘ EPA- 
Struktur; es ist bereits darauf hingewiesen worden, daB derartige spezifische 
Bedeutungsaspekte (bei Personen und ftir Konzepte) als Erganzungen zur 
EPA-Durchschnittsstruktur verstanden werden konnen. 

Im folgenden werden die wichtigsten Schritte der Konstruktion eines SD skiz- 
ziert, wobei - je nach Forschungsintention - sowohl der Orientierung an 
der allgemeinen EPA-Struktur wie auch an spezifischen Bedeutungsstrukturen 
Raum gegeben wird. Das Verfahren berticksichtigt weitgehend die Vorgehens- 
weise, die Osgood et al. (1975) zur Begrlindung der pankulturellen EPA- 
Struktur gewahlt haben. 
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4.1 Merkmals-Relevanz 

Bizarre Kombinationen von Konzepten und Skalen hatten schon in einer der 
ersten Wurdigungen des .Measurement of Meaning 1 die Skepsis des Rezensen- 
ten hervorgerufen (Brown 1958: .Is a boulder sweet or sour? 1 )- Osgood et al. 
(1957, 78f) hatten dieses Problem durchaus erkannt und die Relevanz der 
verwendeten Skalen fiir die zu beurteilenden Konzepte als Kriterium forniu- 
liert. Filr den Fall der Verwendung irrelevanter Skalen hatten sie eine Tendenz 
zu uncharakteristischen ,Neutral‘-Urteilen festgestellt. Oetting (1967) hat die- 
sen Sachverhalt aufgrund entsprechender Beobachtungen bestatigt. An dieser 
Stelle ist auch ein Befund von Mitsos (1961) zu erwahnen, der flir die jeweils 
drei personlich bedeutsamsten von je sieben typischen EPA-Skalen groBere 
Distanzen zwischen (7) Konzepten und groBere Distanzen der Konzeptpunkte 
vom Bedeutungsnullpunkt fand als fiir die iibrigen Skalen. Reduzierte Variabi- 
lity der Konzeptbeurteilungen. die in unmittelbarem Zusammenhang mit Va- 
liditatseinbuBen steht, wird von Orlik (1965) fiir subjektiv .sachlich nicht 
einschlagige' und von Grimm et al. (1973) fiir .allgemeine' gegeniiber .inhalts- 
orientierten' SD-Skalen berichtet. Mikula & Schulter (1970, 383) bekraftigen 
diesen Befund und spezifizieren, daB ,,annahernd 45% der Gesamtvarianz der 
Einstufungen durch die ,Geeignetheit‘ der verwendeten Polaritat determiniert 
sind“. Dabei wird eine Tendenz zur Verwendung extremerer Skalenkategorien 
bei verbal begabteren Versuchspersonen festgestellt. Diese Befunde entspre- 
chen der ,,meaningful-polarization“-Flypothese von O’Donovan (1965), wo- 
nach Reaktionen auf bedeutsame stimuli polarisiert werden, wahrend Urteile 
auf bedeutungslose stimuli in Richtung auf die Indifferenz-Kategorie tendie- 
ren. Nur geringe Ahnlichkeit/Unterschiede zwischen den Konzeptbeurteilun- 
gen anhand subjektiv sachlich einschlagiger und weniger einschlagiger SD- 
Skalen berichtet dagegen Schick (1968). Eher wirkte sich objektive (d.h. infe- 
renz-statistisch definierte) Trennscharfe auf die Hohe der einzelnen Konzept- 
ahnlichkeiten aus; die Struktur der Ahnlichkeitsbeziehung zwischen den Kon- 
zepten fiir die beiden nach der .objektiven Trennscharfe' verschiedenen Ska- 
lensatze war allerdings wieder sehr ahnlich. DaB fiir die jeweils ftinf in den 
Analysen von Osgood et al. (1957) am hochsten ladenden EPA-Indikatoren 
Relevanz fiir die Beurteilung anderer als der von diesen Autoren beriicksich- 
tigten Konzepte keineswegs gewahrleistet ist, belegt ein Befund von Carter et 
al. (1969). Den Beurteilern war Gelegenheit gegeben, bei alien Skalen-Kon- 
zeptkombinationen (bei selbstgewahlten Skalen- Antonymen) eine .wouldn’t 
use'-Kategorie zu markieren. Von dieser Moglichkeit wurde in insgesamt 44% 
der Falle, bei einigen Kombinationen zu mehr als 90%, Gebrauch gemacht. 

Auf eine formale Bedingung der Angemessenheit von Konzept-Skalenkombi- 
nationen weisen Smith & Nichols (1973) hin: Konzepte wie Skalen sollten im 
Hinblick auf eher .intensionale' oder eher ,extensionale‘ Bedeutung unter- 
schieden werden. Durch diese Termini, die der philosophischen Sprachtradi- 
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tion entlehnt sind (Inhalt/Umfang), wird von diesen Autoren eher subjektive, 
ausschlieBlich konnotative Bedeutung abgegrenzt von objektiver, sowohl de- 
notative wie konnotative Aspekte einschlieBende Bedeutung (z.B. idealistisch 
realistisch bzw. sauber - schmutzig). Die faktorielle Instabilitat als Aus- 
druck von Konzept-Skalen-Interaktionseffekten war reduziert, wenn Konzep- 
te und Skalen der gleichen Bedeutungsart kombiniert waren. 

In einer weiteren Gruppe von Untersuchungen wird gefragt, ob die mit erheb- 
lichem Aufwand verbundene Auswahl ,inhaltsorientierter‘ oder .konzeptspe- 
zifischer 1 Skalen aufgrund der resultierenden Ergebnisse gerechtfertigt ist. 
Grimm et al. (1973) vertreten aufgrund ihrer Befunde die Ansicht, daB ein 
enger Problembezug der Skalen sich liber die hohere Diskriminationsleistung 
der Skalen in einer deutlichen Validitatssteigerung auswirkt. Die unzureichen- 
de Begriindung des verwendeten Validitatskriteriums in dieser Untersuchung 
mindert allerdings den Wert dieser Interpretation. Flade (1968) halt eine kon- 
zeptspezifisch zusammengestellte Merkmalsliste (Franke 1976; vgl. dazu Fran- 
ke & Bortz 1972; Bortz 1972) einer allgemeinen, unspezifischen (Hofstatter 
1971) gegenilber deshalb nicht ftir ,,geeigneter“, weil in beiden Fallen je drei 
Faktoren einen etwa gleichen Anteil der Konzeptvarianz erklaren. Allerdings 
kann bezweifelt werden, daB die Spezifitat der Merkmalsliste von Franke fur 
die untersuchten Konzepte als adaquat gelten kann. Vor allem erscheint aber 
die Hohe des auf eine bestimmte Faktorenlosung entfallenden Varianzanteils 
als ,Effizienz‘- und Praferenz-Kriterium fragwiirdig, insbesondere da die In- 
terpretation dieser Faktoren flir die beiden Listen verschieden und ein Validi- 
tatskriterium nicht verfilgbar ist. 

Techniken, bei denen die Geeignetheit von Skalen in einer vorgeschalteten 
Erhebung durch Beurteiler eingestuft wird (Mills 1970; vgl. auch Mitsos 1961, 
Schick 1968, Mikula & Schulter 1970) setzen voraus, daB das relevante Beur- 
teilungsrepertoire bereits bekannt ist. Sie sind deshalb fiir die Begriindung der 
SD-Skalen nur sehr eingeschrankt tauglich. 

Ein interessanter Ansatz, der es ermoglichen wiirde, ,konzeptadaquat‘ (Berg- 
ler 1975) individuelle Bedeutungsstrukturen zu explorieren, ist von Micko 
(1962; vgl. auch Triandis 1959 a, 1959 b, 1960) in Anlehnung an Kellys , Role- 
Construct-Repertory-Test 1 vorgeschlagen worden: Die Personen werden ge- 
beten, aus je drei aller Konzepte das gemeinsame Merkmal der beiden ahnlich- 
sten und das Unterscheidungsmerkmal zum dritten Konzept zu benennen. 
Auf diese Weise wird fiir jede Person eine Liste von Beurteilungsmerkmalen 
gefunden, die zu einem individuellen SD zusammengestellt werden konnen. 
Zwar konnten die so gefundenen Merkmale auch entsprechend dem von Os- 
good und Mitarbeiter beim Cross-Cultural-Projekt angewendeten Verfahren 
(s.o.) behandelt werden, ein individualisierendes Vorgehen wiirde aber einen 
angemessenen Zugang zum Problem der Beurteilung interindividueller Diffe- 
renzen im Hinblick auf Bedeutungsstrukturen ermoglichen; die berichteten 
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Losungen von MDS-Analysen und dreimodalen Faktorenanalysen beriick- 
sichtigen zwar auch Personvarianz, setzen aber die Angemessenheit der allge- 
meinen Beurteilungsmerkmale (Skalen) fur das Urteilsverhalten der untersuch- 
ten Personen voraus. In der Einstellungsforschung sind inzwischen Techniken 
erprobt, die die Analyse individueller Strukturen, sowie deren Aggregierung 
zu Strukturtypen erlauben (Feger 1974, 1975). Eine solche Vorgehensweise ist 
aber angesichts des erheblichen Aufwandes der individuellen Erhebungen fiir 
die meisten der typischen SD-Anwendungsfalle nicht geeignet. 

Das konventionelle, von Osgood et al. (1975; vgl. auch Fuchs & Schafer 1972) 
entwickelte Verfahren, das im Bezugssystem des Durchschnitt-Bedeutungs- 
raumes personengruppen- und konzept(klassen)-spezifischer Variation Rech- 
nung tragen kann, diirfte fiir die meisten Fragestellungen zu brauchbaren Lo- 
sungen fiihren. 

Fiir eine nach einem Reprasentativitatskriterium bestimmte Stichprobe von 
Konzepten aus der Population der zu untersuchenden, oder - soweit moglich 
- fiir alle zu untersuchenden Konzepte, werden (adjektivische) Qualifikato- 
ren gesucht. Osgood und Mitarbeiter verwendeten das Frageschema ,,(Kon- 
zept) ist und ,,(Das) - (Konzept)“. (Diese Erhebung sollte bei Perso- 
nen durchgefiihrt werden, die die Personpopulation reprasentieren, die fiir die 
spatere Untersuchung in Betracht genommen ist.) 

Die erhaltenden Adjektive werden sodann nach drei Kriterien geordnet: .sa- 
lience 1 (Verwendungshaufigkeit liber alle Konzepte), .diversity 1 (Zahl der ver- 
schiedenen Konzepte, fiir die die Adjektive verwendet wurden), .independen- 
ce 1 (AusmaB der Korreliertheit iiber die Konzepte). Die beiden ersten Krite- 
rien konnen kombiniert als .productivity 1 durch Shannons H-MaB indiziert 
werden. 



Die Adaptation lautet: 

index Hj — — E pij log 2 pj(i) (productivity) 

wobei i das Konzept- und j das Adjektiv-System bezeichnet, p(ij) und pj(i) die 
Wahrscheinlichkeit des Auftretens eines Adjektivs bei alien bzw. den einzel- 
nen Konzepten: 

pij = fij/N T und pj(i) = fij/Nj 



Bezogen auf die absoluten Haufigkeiten laBt sich fiir die einzelnen Adjektive 
auch schreiben: 



H = 1/Ni 



E ( fi J lo §2 log2 f) 



H steigt mit der Gesamthiiufigkeit eines Adjektives und mit der Haufigkeit der 
Konzepte, fiir die es genannt wurde an. H wird = Null, wenn ein Adjektiv nur 
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bei einem einzigen Konzept verwendet wurde, unabhiingig von der Haufigkeit 
der Verwendung. Das Maximum von H wiirde erreicht, wenn alle Personen 
fur alle Konzepte dasselbe Adjektiv nennen wttrden. 

Zur Reduzierung semantischer Redundanz verwenden Osgood und Mitarbei- 
ter die Phi-Statisik als Index der Unabhangigkeit (,,Quasi-Synonymitat“) von 
Merkmalen. Fiir jedes Adjektiv werden die Falle von gemeinsamem und nicht- 
gemeinsamem Vorkommen (und Nicht-Vorkommen) mit jedem anderen, in 
der Rangordnung der H-MaBe folgenden Adjektiv bei alien Konzepten ausge- 
zahlt und die Summen in die Berechnungsformel eingesetzt. Zur Vermeidung 
von Typ I-Fehlern (AusschluB wegen angenommener Gleichheit trotz vorhan- 
dener Unterschiedlichkeit) wird eine hohe Signifikanzgrenze als Selektions- 
Kriterium verwendet. 

Es kann zweifelhaft erscheinen, daB ein derartiges MaB stochastischer (Un)- 
Abhangigkeit semantische Synonymitat angemessen operationalisiert. Uber- 
dies ist nicht geklart, welche Auswirkungen diese ,Sauberung‘ auf die weiteren 
Konstruktionsschritte, die Auswahlmoglichkeit von bipolaren Skalen und die 
Analyse der dimensionalen Struktur des Urteilsverhaltens hat. Eine so be- 
stimmte Unabhangigkeit der Merkmale ist u.E. problematisch und entbehr- 
lich. 



4.2 Merkmals-Polaritat 

Die in Abschnitt 3.1 erorterten Argumente und Befunde lassen es notwendig 
erscheinen, die Bipolaritat von SD-Skalen empirisch-systematisch und nicht 
bloB intuitiv zu begriinden. 

Osgood et al. (1975) haben Antonyme in jeder Sprache/Kultur-Gruppe durch 
jeweils ca. 10 kompetente Sprecher dieser Gruppen erhoben. Da aufgrund der 
einschlagigen Untersuchungen konzept- und personspezifische Variationen zu 
erwarten sind, erscheint ftir Forschung. die sich nicht unmittelbar auf die 
Analyse einer allgemeinen Bedeutungsstruktur bezieht, die Beriicksichtigung 
entsprechender Besonderheiten nicht unwesentlich. Bei einer Stichprobe von 
Beurteilern aus der vorgesehenen Population von Untersuchungspersonen 
sollten demnach Antonyme ftir die einzelnen Adjektive im Hinblick auf die zu 
beurteilenden Konzepte erhoben werden: ,Das Gegenteil von einem (Adjek- 
tiv) (Konzept) ist ein (Konzept) 1 . 

Es gibt bislang weder systematische noch konventionelle Kriterien, die. das 
MaB der noch akzeptablen Beurteiler-Nichtubereinstimmung spezifizieren. 
Fuchs & Schafer (1972) weisen auf einen bei eindeutigen Gegensatzen zu 
erwartenden Sprung in der Hiiufigkeitskurve hin. Wenn zwei, jeweils relativ 
haufig verwendete Antonyme auftreten, diirfte es zweckmaBig sein, zunachst 
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beide beizubehalten, da sie moglicherweise verschiedene Urteilskontinua re- 
prasentieren. In jedem Falle sollte uberpruft werden, ob sich Abweichungen 
auf wenige Konzepte konzentrieren: ggf. ist zu erwagen, solche Konzepte als 
untypisch zu eliminieren. 



4.3 Dimensionale Reprasentativitat 

Es ist festgestellt worden, dab die Representation von Beurteilungs-Dimensio- 
nen ein charakteristisches Merkmal der SD-Technik ist. Mit der EPA-Struktur 
wird daflir ein allgemeines Bezugssystem zur Bedeutungsdifferenzierung be- 
reitgestellt. Soweit das Forschungsinteresse darauf gerichtet ist, die Bedeutung 
sehr verschiedenartiger Konzepte ftir Beurteiler vergleichbar zu machen, die 
nicht naher spezifiziert sind als durch ihre Zugehorigkeit zu einer Sprach/ 
Kultur-Gemeinschaft, ist das Angebot. dafiir den EPA-Raum zu wahlen, kon- 
kurrenzlos. Die Reproduktion dieser Struktur durch Dimensionsanalysen von 
SD-Urteilen ist, wie mehrfach betont, von einer entsprechend allgemeinen, 
breit gefacherten Konzeptauswahl, die bereits im ProzeB der Merkmalsfin- 
dung zugrunde gelegt wird, abhangig. Wichtiges Material ftir die von Osgood 
et al. (1975) untersuchten Sprach/Kultur-Gruppen findet sich hierzu in dent 
der Veroffentlichung beigefiigten .Semantischen Atlas 1 . 

Je spezifischer die untersuchte Konzeptklasse und Personengruppe ist, um so 
wichtiger wird die Frage, ob die EPA-Struktur als Vergleichsstandard dienen 
soil und kann, d.h. ob die aufgrund der Konstruktionsarbeit erhaltliche spezi- 
fische Information ausgeschopft werden oder eine Anpassung an die wohlbe- 
griindete, wenngleich unspezifische Struktur versucht werden soil. Durch eine 
Konzeptauswahl. die - ggf. mit Hilfe von Atlas-Daten - die Kombinations- 
moglichkeiten der Oktanten des SD-Raumes abdeckt, durch Erganzung der 
Skalenliste um EPA-Markierskalen. sowie durch entsprechende Rotation der 
Faktorenstruktur wird die letztere Losung begiinstigt. Heise (1969) ist der 
Auffassung, daB in einem solchen Falle mindestens 40 Konzepte (je 5 pro 
Oktanten) verwendet werden sollten, schon um die Skalenkorrelationen auf 
der Basis von Konzept-Mittelwerten bestimmen zu konnen. Wenn eine ge- 
ringere Anzahl von Konzepten zugrunde gelegt wird. sollten die Skalenkorre- 
lationen iiber m x n, d.h. liber alle Personen bei alien Konzepten berechnet 
und zusatzlich auftretende Faktoren ignoriert werden. 

Ein unbedingtes Festhalten an der Verbindlichkeit der EPA-Struktur ist aller- 
dings nicht begrundbar. Es entspricht auch nicht der Konzeption Osgoods, 
der imrner wieder betont hat, daB EPA zwar die zentralen Dimensionen affek- 
tiver Bedeutung von Zeichen reprasentiert, den Bedeutungsraum aber keines- 
wegs im Hinblick auf Person- und Konzept-Variation erschopfend beschreibt. 
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Die hier beschriebene, personengruppen- und konzeptklassen-spezifische 
Auswahl von SD-Skalen steht der Identifizierung von EPA-Dimensionen 
nicht im Wege. Sie erlaubt zwar keinen Vergleich und keine Typisierung indi- 
vidueller konzeptklassen-spezifischer Bedeutungsstrukturen, aber die Explo- 
ration weiterer und/oder konzeptspezifischer Bedeutungsdimensionen filr be- 
stimmte Personengruppen, vorausgesetzt, daB die untersuchte Konzeptklasse 
in der Konstruktionsphase hinreichend reprasentiert war. 



4.4 Variationen der Prasentationsweise 

4.4.1 Reihenfolge der Konzept-Skalenkombination 

In der iiblichen Form der Anwendung erhalten die Beurteiler Antwortbogen, 
auf denen die Skalen unterhalb der Nennung des jeweils zu beurteilenden 
Konzeptes in dimensional gemischter Reihenfolge und balancierter Polung der 
Bewertungsrichtung aufgefiihrt sind. In den friiheren Arbeiten haben Osgood 
und Mitarbeiter eine Variante verwendet, bei der das Urteilskonzept zu jeder 
Skala neu festgelegt wil'd, wodurch eine Permutation der Konzept-Skalen- 
kombinationen ermoglicht wird. Durch die Wahl dieser Form sollte die Wahr- 
scheinlichkeit des Auftretens von Halo-Effekten verringert werden. Anderer- 
seits ist nicht auszuschlieBen, daB die Bedeutung der Konzepte durch die 
unterschiedlichen Kontextbedingungen starker variiert. Im direkten Vergleich 
der Ergebnisse beider Verfahrensweisen fanden Osgood et al. (1957, 82) keine 
nennenswerten Unterschiede zwischen den Skalenmittelwerten. Die von ihnen 
des weiteren berichtete Resistenz von SD-Urteilen gegeniiber Kontext-Anker- 
effekten wird von Sommer (1965) bekraftigt. 

Mogliche kontextbedingte Fehlervarianz aufgrund einer Standardreihenfolge 
der Konzeptbeurteilungen wird haufig durch die technisch einfache Variation 
der Konzeptabfolge zu reduzieren versucht. Kane (1969) hat ein Computer- 
Programm entwickelt, mit dem sowohl die Reihenfolge der Konzepte, wie 
auch die Reihenfolge und Polung der Skalen systematisch permutiert werden 
konnen; in einer weiteren Arbeit (Kane 1971) berichtet er, daB eine Standard- 
abfolge gegeniiber verschiedenen Anordnungsvariationen weder im Hinblick 
auf die Faktorenstruktur und Faktoren-Scores, noch hinsichtlich der Markie- 
rungskonsistenz bei benachbarten Skalen zu unterschiedlichen Ergebnissen 
fiihrt. 

Osgood et al. (1975, 118 f) uberpruften Ermiidungseffekte, soweit sie sich in 
einer geringeren oder gesteigerten Polarisierung der Skalenurteile auswirkten. 
Fiir umgekehrte Konzeptreihenfolgen wurden keine systematischen Effekte 
entdeckt (wobei allerdings Durchschnittswerte iiber die Personen zugrunde- 
liegen). 
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4.4.2 Verankerung der Skalen 

Die Uneinheitlichkeit der im Zusammenhang der Bipolaritat von SD-Skalen 
berichteten Befunde kann - wie hier vorgeschlagen - zur Forderung einer 
systematischen Begriindung der Antonyme von Merkmalen fiihren, die in 
bipolarer Anordnung als SD-Skalen verwendet werden. Wenn das bipolare 
Schema grundsatzlich in Frage gestellt wird, wird - allerdings nicht ohne 
Konsequenzen fur die Konzeption der bedeutungsspezifischen Vermittlungs- 
prozesse als reziprok-antagonistisch - die Verwendung unipolarer Skalen in 
Erwagung gezogen (z.B. Green & Goldfried 1965; Kaplan 1972). 

Aus nicht naher beschriebenen Grunden haben Vidali (1973) und Vidali & 
Holeway (1975) eine Abwandlung der Green & Goldfried-Technik als ,Stapel- 
Skalen' vorgeschlagen. Dabei wird die Skalenmitte durch ein Adjektiv gekenn- 
zeichnet. von deni die Ziffern 1 bis 3 auf- (+) und absteigen (-). Die Feststel- 
lung, daB die Ergebnisse insgesamt nicht signifikant verschieden von jenen 
ausfallen, die mit Hilfe von bipolaren SD-Skalen zu erhalten sind, kann aller- 
dings nicht als eine hinreichende Begriindung fiir den Vorzug oder eine , alter- 
native" Verwendung von ,Stapel-Skalen‘ akzeptiert werden. 1m iibrigen diirfte 
diese Prasentationsweise auch empfindlich fiir Effekte aufgrund ,lexikalischer 
Markierung" sein, wonach die einzelnen Adjektive Urteilskontinua in unter- 
schiedlicher Weise reprasentieren (vgl. S. 186). 

Es werden auch Abweichungen vom adjektivischen Modus der Urteilsmerk- 
male vertreten. Ertel (1965a; vgl. auch Fuchs 1973) zieht die substantivische 
Form vor, weil er vermutet, daB diese die Beurteilung eher als Ahnlichkeits- 
vergleich fordert und nicht als Anheften von Attributen auffassen laBt. Er 
verspricht sich auch eine geringere Tendenz zu Verzerrungen im Sinne sozialer 
Erwiinschtheit. Der Vergleich der Urteile auf einer adjektivischen und einer 
substantivischen Liste laBt gewisse Unterschiede zwischen diesen in der erwar- 
teten Richtung erkennen (Ertel 1965 b). 

Eine andere Abwandlung von der adjektivischen Skalenetikettierung wird von 
Mindak (196 1) vorgeschlagen und in der Markt- und Meinungsforschung hau- 
figer verwendet: Die Beschreibungsmerkmale werden unabhangig von einer 
grammatikalischen Regel erhoben und verwendet, z.B. .really modern - sort 
of old-fashioned". Es scheint. daB auf diese Weise deni person- und konzept- 
spezifischen Urteilsverhalten sehr weitgehend Rechnung getragen werden 
kann, um den Preis allerdings, daB die Bestimmung verbindlicher Antonyme 
und bereits insoweit die Begriindung eindimensionaler Kontinua erschwert ist. 
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4.4.3 Zahl der Antwortkategorien 

Fur die im Hinblick auf Rating-Skalen haufig diskutierte Frage nach der opti- 
malen Anzahl der Abstufungskategorien (vgl. Miller 1956; McKelvie 1978) hat 
Gulliksen (1958) in bezug auf die SD-Technik die Forderung formuliert, 20- 
oder 30-stufige Skalen statt der von Osgood verwendeten sieben-stufigen 
Skala zu verwenden. Er begriindet diese mit den von Osgood et al. (1957) 
berichteten hohen Ubereinstimmungen im Urteilsverhalten bei Retests, die 
zeigten, daB die verlangte Diskriminationsleistung nicht zu einer Verteilung 
der MeBwerte flihrte, die die Bestimmung des StandardmeBfehlers erlaubt. 

Die Zahl der tatsachlich verwendeten Skalenkategorien in SD-Untersuchungen 
schwankt nicht unerheblich um die 7, wobei kaum Skalen mit weniger als 5 
und mehr als 10 Kategorien benutzt werden. Schonpflug (1972) hat die Aus- 
wirkungen dieser Variation ftir die Anzahlen von 3 bis 10 Kategorien systema- 
tisch untersucht. Fur 15 Merkmale der Ertel-Liste (in adjektivischer Form), 
die zur Beurteilung von 48 Konzepten verwendet wurden, ergaben sich glei- 
che, dreidimensionale Bedeutungsraume mit gleicher Einlagerung der Kon- 
zepte, unabhangig von der kategorialen Differenziertheit der Skala. Die durch- 
schnittlichen Einstufungen waren von der Kategorienzahl nicht abhiingig, Ur- 
teile von Skalen verschiedener Kategorienzahl korrelierten alle nahezu perfekt. 

Nach McKelvies (1978) Befunden aus einer nicht-SD-spezifischen Vergleichs- 
studie ist eine relativ geringe Zahl von Stufen empfehlenswert: Die Versuchs- 
personen operierten bei kontinuierlichen Skalen mit 5 oder 6 Stufen; 5-stufige 
Skalen wiesen die hochsten Reliabilitaten auf; bei starkerer Abstufung (9 - 12 
Stufen) lieBen sich keine psychometrischen Vorteile belegen; bei weniger als 5 
Stufen zeigte sich ein Verlust an Diskriminationsfahigkeit und Validitat. ,Die 
magische Zahl 7, plus oder minus 2‘ (Miller 1956), ob sie nun in der Kapazitat 
menschlicher Informationsverarbeitung eine Grundlage hat oder nicht, dlirfte 
als MaBgabe ftir die Differenzierung von SD-Skalen eine relevante GroBe dar- 
stellen; dabei dlirfte die Frage des Vorzugs einer verbalen Kodierung, wie von 
Osgood und Mitarbeitern verwendet, gegeniiber einer numerischen nicht von 
Wichtigkeit sein. 

Dagegen ist die Verwendung und Definition der Mittelkategorie problema- 
tisch. Im Unterschied zu Kaplans (1972) Kritik der mehrfachen Bedeutung 
dieser Kategorie, erscheint die Verwendung der ,Neutral‘-Kategorie ftir den 
Fall ambivalenter Urteilstendenzen begriindet (vgl. Osgood 1977, 16). 
Forthman (1973) kritisiert allerdings zu Recht, daB diese Kategorie in der 
Definition als Neutral-, Ambivalenz- und als Irrelevanz-Kategorie eine Art 
Mlillschluckerfunktion zu erfiillen hat. Er isoliert die Ambivalenzfunktion der 
Mittelkategorie und findet bei Nichtberlicksichtigung von Urteilen i. S. der 
Irrelevanz- und (leider auch gleichzeitig) der Neutral-Instruktion Abweichun- 
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gen vom Ladungsmuster gemaB der EPA-Struktur, deren Replikation bei Ver- 
wendung der Original-Instruktion gelingt. 

Die Notwendigkeit einer Irrelevanz-Kategorie wird urn so geringer sein, je 
konzept- und beurteilerspezifischer SD-Indikatoren ausgewahlt worden sind. 
Wenn aufgrund sehr heterogener Beurteiler- und/oder Konzeptstichproben 
Konzept-Skalenkombinationen zu vermuten sind, die als irrelevant angesehen 
werden, diirfte eine durch Instruktion angebotene Moglichkeit der Streichung 
allerdings erwagenswert sein. 

Es sollte schlieBlich noch erwahnt werden, daB Anwender der SD-Technik der 
Instruktion haufig eine nur geringe Bedeutung beimessen. Abgesehen von der 
eben genannten Einschrankung ist das von Osgood et al. (1957, 82ff) gegebene 
Beispiel nachahmenswert. 



4.5 Varianten der Technik 

Neben den Anwendungen der SD-Technik in verschiedenen Bereichen der 
Semantik des (verbalen) Urteilsverhaltens (z.B. .Personlichkeits-DifferentiaP 
Kuusinen 1969, Warr & Haycock 1970, Revenstorff 1971, Tzeng 1975, 1977; 

, Angst-Differential 1 Alexander & Husek 1962; , Verhaltens-Differential 1 
Triandis 1971; .Stereotyp-Differential 1 Gardner et al. 1972; .Befindlichkeits- 
Differential 1 Baumann & Dittrich 1972; ,face differential 1 Hurwitz et al. 1975) 
ist die Adaptation der SD-Technik zur Bedeutungsanalyse auf der Grundlage 
sprachfreier Bedeutungsreaktionen, die Entwicklung von ,Grafischen Differ- 
entialen 1 erwahnenswert. Die mit Befunden aus der Analyse von Synasthesien 
begrtindete Auffassung, daB EPA die gemeinsamen affektiven Bedeutungsan- 
teile bei Zeichen verschiedener Modalitat reprasentiert (Osgood et al. 1957, 
Osgood 1959, Elliott & Tannenbaum 1963, Osgood et al. 1975), laBt die Wahl 
nicht-sprachlicher Indikatoren zur Bedeutungsdifferenzierung moglich und 
gelegentlich wiinschenswert erscheinen (Jakobovits 1969). Kontrastive Paare 
visueller Muster lieBen insbes. E, weniger deutlich P und A identifizieren. Die 
Replikation der EPA-Struktur grafischer Zeichen neben anderen Dimensionen 
des Bedeutungsraumes (vgl. Bentler & LaVoie 1972a) gelang Bentler & LaVoie 
(1972 b). 

Ein wichtiger Anwendungsbereich der SD-Technik liegt in der Einstellungs- 
forschung. Grundlegend sind dafilr die von Osgood et al. (1957) gegebene 
Begrundung, daB die von traditionellen Einstellungsskalen erfaBten Urteils- 
kontinua sowohl begrifflich wie empirisch mit der E-Dimension der EPA- 
Struktur ubereinstimmen. sowie die Uberzeugung, die typischen E-Skalen 
konnten als ein Standardsatz von Indikatoren fltr beliebige Einstellungsobjekte 
verwendet werden. Die Konsequenzen aus der zuletzt genannten Auffassung 
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sind zwar .benutzerfreundlich'; sie ist jedoch nicht konsistent zu der Auffas- 
sung, die hier und von den Urhebern der Technik an anderer Stelle zur Ver- 
wendung von SDs vertreten wird (s.o.). Ein Uberblick uber die Verwendung 
der SD-Technik in der Einstellungsforschung geben Heise (1970) und Schafer 
(1975c). 

Kriterien der Konstruktion von Semantischen Differentialen konnen dazu bei- 
tragen, die SD-Technik als ein Verfahren zur Analyse der Bedeutung von 
Zeichen zu begrunden. Die Fortentwicklung der SD-Technik wird allerdings 
erheblich vom Erfolg abhangen, mit dem die Nutzlichkeit von SD-Bedeu- 
tungsmaBen fur die Erklarung von Verhalten - uber Urteilsverhalten hinaus 
- belegt werden kann. 
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5. Kapitel 



Fragebogenkonstruktion 

Ulrich Trankle 



1. Einfiihrung 

Die Konstruktion eines Fragebogens wird entscheidend davon bestimmt, wel- 
che Arten von Informationen (Inhalten) erfaBt, welche Arten von Aussagen 
gemacht, wofiir und auf welcher Grundlage Validitat fiir die Antworten in 
Anspruch genommen, in welcher Kommunikations-(Befragungs-)form der 
Fragebogen verwendet werden soli und welche Determinanten des Antwort- 
verhaltens in der Befragungssituation mutmaBlich wirksam sind. Es ist deshalb 
unerlaBlich, in einem einleitenden Kapitel relativ ausflihrlich auf diese grund- 
legenden Sachverhalte einzugehen, bevor die rnehr technischen Aspekte der 
Fragenkonstruktion und des Fragebogenaufbaus in der Differenziertheit be- 
handelt werden konnen, die einem haufig verwendeten Instrument wissen- 
schaftlicher Datenerhebung angemessen ist. 



1.1 Versuch einer Systematik von Fragebogen 

1.1.1 Einteilungsgesichtspunkte fiir Fragebogen 

Fragebogen lassen sich nach einer Vielzahl von Gesichtspunkten einteilen 
bzw. charakterisieren. Die wichtigsten sind im folgenden zusammengestellt. 

a. Nach dem Grad der Standardisierung lassen sich unterscheiden 
nicht oder schwach standardisierte Fragebogen 

Sie enthalten die Befragungsthemen(-inhalte), aber weder eine genaue 
Festlegung der Fragen, der Fragenreihenfolge, noch die Antwortmog- 
lichkeiten. Im allgemeinen spricht man hier weniger von Fragebogen als 
von Interviewerleitfaden, wie sie z.B. in freien Explorationen Verwen- 
dung finden. 

- Teilstandardisierte Fragebogen 

Sie enthalten in der Regel eine Festlegung von Fragenformulierungen 
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und Fragenreihenfolge, nicht aber eine Formulierung von Antwort- 
moglichkeiten. 

Vollstandardisierte Fragebogen 

Bei diesen Fragebogen sind die Fragenformulierungen, die Fragenrei- 
henfolge und die Antwortformulierungen festgelegt. 

Mischformen zwischen diesen Typen sind moglich und gebrauchlich. 

b. Nach der Kommunikationsform werden meist Fragebogen fur schriftliche 
und solche ftir miindliche Befragung (Atteslander 1971) oder solche fur 
personliches Interview und schriftliche Befragung (Scheuch 1973) unter- 
schieden. Eine erschopfende Klassifizierung nach Kommunikationsformen 
mufite aber mindestens unterscheiden (Trankle 1974) 

- Fragebogen zur Bearbeitung in Anwesenheit eines Interviewers, 

im Einzelversuch (ein Befragter), 

mit miindlicher Vorgabe der Fragen, 
mit miindlicher Beantwortung 
(personliches miindliches Interview), 
mit schriftlicher Beantwortung, 

mit schriftlicher Vorgabe der Fragen und schriftlicher Beantwortung 
(personliches schriftliches Interview), 
im Gruppenversuch (mehrere Probanden gleichzeitig), 

mit miindlicher Vorgabe der Fragen und schriftlicher Beantwor- 
tung, 

mit schriftlicher Vorgabe der Fragen und schriftlicher Beantwor- 
tung, 

- Fragebogen zur Bearbeitung in Abwesenheit eines Interviewers, 

im Einzelversuch, 

mit miindlicher Vorgabe der Fragen und miindlicher Beantwortung 
(z.B. Telefoninterview), 

im Einzel- oder Gruppenversuch (undefiniert), 

mit schriftlicher Vorgabe der Fragen und schriftlicher Beantwor- 
tung (,postalische‘ Befragung). 

Wiederum sind Mischformen gebrauchlich, auBerdem enthalt das Klassifi- 
kationsschema nicht alle moglichen Kombinationen der beteiligten Ge- 
sichtspunkte, sondern nur diejenigen, f Ur die dem Autor Anwendungen 
bekannt sind. 

c. Nach dem angestrebten Gliltigkeitsbereich der Aussagen lassen sich unter- 
scheiden 

individual-diagnostische Fragebogen, die Aussagen iiber Individuen 
zum Ziel haben, und 

- Fragebogen, die Aussagen iiber Gruppen (Populationen) anstreben und 

bei denen das Antwortverhalten des einzelnen Individuums als solches 
nicht interessiert. Solche Fragebogen werden im folgenden der Kiirze 
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halber als ,demoskopische‘ oder sozialwissenschaftliche Fragebogen an- 
gesprochen. 

Hier sind insofern Ubergange moglich, als Aussagen liber Populationen 
auch ausgehend von solchen liber Individuen gemacht werden konnen, in 
manchen Fallen sogar miissen (vgl. Feger 1974). 

d. Nach dem Inhalt der angestrebten Aussagen kann man unterscheiden 

- fakten-, wissens- oder kenntnisorientierte Fragebogen mit individual- 

diagnostischer (wie bestimmte Intelligenztests) oder demoskopischer 
Intention, 

- meinungs- bzw. einstellungsorientierte Fragebogen, ebenfalls entweder 

mit individual-diagnostischer oder demoskopischer Zielsetzung, und 
personlichkeitsorientierte diagnostische Fragebogen; hierunter fallen 
Z.B. 

Problemfragebogen (adjustment inventories), bei denen es darum 
geht, das ,Problemniveau‘ (die Auffalligkeit) einer Person festzu- 
stellen, 

eigenschafts-(trait-)orientierte Fragebogen, die die Messung des Aus- 
pragungsgrades bestimmter Personlichkeitsmerkmale zum Ziel ha- 
ben, und 

Interessenfragebogen, die einen eng umschriebenen inhaltlichen 
Aspekt der Personlichkeit, namlich Vorlieben bzw. Bevorzugungen 
von Tatigkeiten. Situationen, Berufen zu erfassen trachten (Mitten- 
ecker 1971). 

Auch im Hinblick auf den Inhalt des Fragebogens sind natiirlich Mischfor- 
men moglich. 

e. Nach dem Grundkonzept der Fragebogenkonstruktion (dem der Kon- 
struktion zugrundeliegenden Validitatskonzept) kann man unterscheiden 

- rationale (Anastasi 1968, Edwards 1970), inhaltsorientierte, ,sample- 

approach‘-Fragebogen (Cronbach 1970), 

empirische (Anastasi 1968), statistische, ,sign-approach‘-Fragebogen 
(Cronbach 1970), 

konstrukt-valide, theoriegeleitete (Cronbach 1970) Fragebogen. 

Auf diese Grundkonzeptionen von Fragebogen wird im folgenden etwas 
ausfiihrlicher eingegangen. 



1.1.2 Grundkonzeptionen von Fragebogen 

Rationale Fragebogenkonstruktionen bestehen in einer Zusammenstellung 
von Items nach inhaltlichen Gesichtspunkten. Sie wird als representative Stich- 
probe (Sample) aus einem Universum interessierender Inhalte angesehen. Der 
Befragte soil die Items verstehen und sie wahrheitsgemaB beantworten. Dem- 
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entsprechend werden die Antworten ihrer inhaltlichen Bedeutung nach inter- 
pretiert und gegebenenfalls zu einem Gesamtscore zusammengefaBt. Dabei 
werden unter Umstanden auch die Interkorrelationen der Items in Betracht 
gezogen. 

Dieser Konstruktionsansatz liegt iiblicherweise (vgl. 1.1.3) demoskopischen 
Fragebogen zugrunde. war aber auch Ausgangspunkt der ersten diagnosti- 
schen Fragebogen von Woodworth und Mitarbeitern (Cronbach 1970, Mit- 
tenecker 1971). 

Innerhalb der rationalen Fragebogenkonstruktion unterscheiden manche 
Autoren (vgl. Burisch 1976) ein intuitiv-rationales von einem deduktiven Vor- 
gehen bei der Formulierung der Items (Ableitung der Items aus einem - 
moglicherweise spekulativen - Personlichkeitsmodell). Sie heben davon einen 
sogenannten internalen (z.B. Hornick et al. 1977) bzw. induktiven (z.B. Bu- 
risch 1976) Ansatz der Konstruktion von Fragebogen auf der Basis der Ergeb- 
nisse von Faktorenanalysen der Iteminterkorrelationen ab. Dabei handelt es 
sich u.E. jedoch nicht um eine eigenstandige Fragebogenkonzeption, sondern 
um eine Technik in der Regel inhaltlicher Validierung. Bekanntlich hangt das 
Ergebnis einer Faktorenanalyse entscheidend von den einbezogenen Variablen 
(Items) ab (ftir den Fall von Personlichkeitsfragebogen und von zugehorigen 
Personlichkeitstheorien hat Coan 1964 dies auch empirisch demonstriert, vgl. 
auch Scheier & Cattell 1965). liber die Einbeziehung eines Items in die Fakto- 
renanalyse wird aber nach inhaltlichen Gesichtspunkten oder nach seiner kri- 
teriumsbezogenen Validitat entschieden. Im letztgenannten Fall ist Ziel der 
Faktorenanalyse ebenfalls die nahere Untersuchung des Fragebogeninhalts. 

Prinzipielles Problem des rationalen Konstruktionsansatzes ist, daB er mit 
durchschaubaren Items arbeitet und arbeiten muB und daB dadurch die Ant- 
worten leicht verfalschbar sind (vgl. 1.2.1). 

Dies war historisch gesehen auch der AnlaB ftir die Entwicklung des empiri- 
schen (bzw. externalen, vgl. Hornick et al. 1977) Konstruktionsansatzes. Wird 
er in reiner Form verwirklicht, so orientiert sich die Zusammenstellung der 
Items ausschlieBlich an ihren Korrelationen zu externen Kriterien. Die Ant- 
worten werden als verbales Verhalten betrachtet, das als Zeichen (sign) bzw. 
Indikator ftir einen Sachverhalt anzusehen ist, d.h. die Bedeutung einer Ant- 
wort ergibt sich allein aus der Korrelation zu AuBenkriterien. Auf dieser 
Grundlage wurden z.B. der MMPI und der Interessenfragebogen von Strong 
entwickelt. Da die Iteminhalte prinzipiell unerheblich sind. ist es hier moglich, 
nicht durchschaubare Items zu verwenden und dadurch die Moglichkeit von 
Verfalschungen erheblich zu reduzieren. Inhaltlich valide Items sind aus die- 
sem Grund ftir einen streng empirischen Fragebogen geradezu unerwiinscht. 
Die Zusammenfassung von Antworten zu Gesamtscores erfolgt gegebenenfalls 
nach MaBgabe gemeinsamer Korrelationen mit AuBenkriterien. Hauptpro- 
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bleme dieses Ansatzes sind einerseits die fehlende oder geringe face-validity 
der Items, wodurch die Motivation der Probanden beeintrachtigt werden 
kann, andererseits die Risiken, die in einer inhaltsblinden Suche nach empi- 
risch validen Items stecken: Recht haufig wird man dadurch Items mit iiber- 
hohten Validitaten in den Fragebogenentwurf aufnehmen und bei Kreuzvali- 
dierungen erhebliche Validitatsruckgange feststellen. Gelegentlich wird sogar 

die Auffassung vertreten daB substantielle und stabile Zusammenhange 

immer nur ftir Merkmale mit plausibler inhaltlicher Beziehung zu finden . . 
seien (Burisch 1976, 28). Jedenfalls sind von empirischen Konstruktionen auch 

nur mittlere Validitaten erreicht worden (Cronbach 1970). Versuche, zur Ver- 
besserung der Akzeptabilitat den Items eine von der wirklichen Validitat ver- 
schiedene face-validity zu verleihen, sind ihrerseits problematisch, da sie evtl. 
Verfalschungen nach MaBgabe der face-validity beglinstigen. 

Fur praktische diagnostische Anwendungen ist es in jedem Falle unerlaBlich, 
daB ein Fragebogen auch empirisch validiert und nicht, wie bei ausschlieBlich 
rationalen Konstruktionen, nur eine . . spekulativ halbwegs sinnvoll erschei- 
nende Zusammenstellung . . .“ von Items (Wottawa 1980, 211) ist. Umgekehrt 
kann kaurn ein Testanwender der Versuchung widerstehen, entgegen den In- 
tentionen des Konstrukteurs einen rein empirischen Fragebogen auch inhalt- 
lich zu interpretieren (Cronbach 1970), so daB Uberlegungen zur inhaltlichen 
Validitat erforderlich werden. In der Praxis reduziert sich der Unterschied der 
Grundkonzeptionen haufig auf einen solchen beim ersten Schritt der Item- 
Selektion (Trennscharfe vs. Kriteriumskorrelation). Dartiber hinaus lieB sich 
auch bei strenger Verwirklichung eine generelle Uberlegenheit des einen oder 
anderen Ansatzes nicht nachweisen (Hase & Goldberg 1967, Burisch 1976, 
Hornick et al. 1977). 

Fur theoriegeleitete bzw. konstrukt-valide Fragebogen (Cronbach & Meehl 
1955) ist zum Zwecke der Validierung der Nachweis zu fiihren, daB es sich bei 
dent, was sie rnessen, um ein im Rahmen einer Theorie definiertes Konstrukt 
handelt. Dieser Nachweis erfolgt vor allem durch Ableitung von Beziehungen 
zu weiteren Konstrukten aus der Theorie und Uberpriifung der Vertraglich- 
keit dessen, was der Fragebogen erfaBt, mit diesen Vorhersagen. Ansatze zu 
derartigen Fragebogen sind zunachst vor allem von Eysenck (vgl. Eysenck 
1953) vorgelegt worden, dessen Intention stets die Messung von Konstrukten 
war, die in eine umfassende Theorie kortikaler Prozesse eingebaut sind. Dem- 
gegeniiber kann man allein aufgrund von Versuchen einer Abstraktion von 
traits aus Fragebogendaten z.B. mittels Faktorenanalyse (vgl. vor allem Guil- 
ford 1965) wohl noch nicht von theoriegeleiteter Fragebogenkonstruktion 
oder von einer Konstruktvalidierung von Fragebogen sprechen (Cronbach 
1970). Die faktorielle Reinheit von Fragebogenitems hat - entgegen Holm 
(1974 a, b) - nichts mit ihrer Theorieorientiertheit zu tun. AuBerdem gibt es 
kaurn sachliche (allenfalls technische) Grttnde, sie zu fordern (Cattell 1974), 
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zumal sie ja nicht an sich, sondern immer nur innerhalb einer gegebenen 
Variablen-(Item-)stichprobe existiert. Von erheblichem Nutzen kann die Fak- 
torenanalyse sein, wenn ein inhaltlich (rational) konstruierter Fragebogen z.B. 
dutch Einbeziehen von Markierungsvariablen daraufhin iiberprilft werden 
soil, ob die angestrebten Inhalte tatsachlich enthalten sind (so schon Eysenck 
1953). AuBerdem laBt sich mit ihrer Hilfe bei einem empirischen Fragebogen, 
besonders wenn die Kriterien mit in die Analyse einbezogen werden, die 
zunachst nur statistische Beziehung zwischen Antwort und Kriterien auch in 
ihrer inhaltlichen Bedeutung erhellen, d.h. ein zunachst nur empirisches in ein 
auch inhaltliches Validitatskonzept UberfUhren. 



1.1.3 Hauptanwendungsgebiete fUr Fragebogen 

Diagnostische Fragebogen sind Tests, insofern orientiert sich ihre psychome- 
trische Konstruktion an einem Test- bzw. MeBmodell. Bezliglich der damit 
zusammenhangenden Fragen muB auf die einschlagige Literatur, z.B. Gullik- 
sen (1950), Magnussen (1966), Lienert (1969), Fischer (1974), verwiesen wer- 
den. FaBt man einen Fragebogen ganz allgemein als eine Zusammenstellung 
von Fragen auf, so enthalten die meisten Tests auch Fragebogen. Fur Fragen in 
Leistungstests ist charakteristisch, daB es fur sie eine objektiv richtige Antwort 
gibt, so daB besondere Uberlegungen zum Problem des Ratens erforderlich 
werden (vgl. Wottawa 1980). Diagnostische Fragebogen im engeren Sinne sind 
z.B. Personlichkeits- und Interessenfragebogen, fur ihre Items gibt es hoch- 
stens subjektiv richtige Antworten. Die folgenden Ausfilhrungen beschranken 
sich in der Regel auf Fragebogen dieses Typs. Fast immer sind Personlichkeits- 
und Interessenfragebogen vollstandardisierte Verfahren, mit schriftlicher Vor- 
gabe von Fragen und schriftlicher Beantwortung in Anwesenheit eines Unter- 
suchers, die Durchfiihrung erfolgt teils im Einzelversuch, teils in Gruppen. 

D emoskopische Fragebogen konnen alle moglichen Standardisierungsgrade 
aufweisen. Die Befragungen werden meist als personliche miindliche Inter- 
views im Einzelversuch oder ,postalische‘ Befragungen, seltener als personli- 
che schriftliche Interviews durchgeflihrt. Die Fragebogen haben Fakten, Wis- 
sen, Kenntnisse, Meinungen oder Einstellungen zum Inhalt und sind vom 
Validitatskonzept her fast ausschlieBlich rationale bzw. inhaltsorientierte Kon- 
struktionen. Uberlegungen zu empirischen (kriteriumsorientierten) Validie- 
rungen werden vor allem im Zusammenhang mit Meinungs- und Einstellungs- 
fragen und ihrer Indikatorfunktion angestellt (Friedrich 1971), soweit Fak- 
ten- und Wissensbereiche thematisch sind, interessieren eher Verfalschungen 
bzw. Fehler (Lansing et al. 1961) und ihre Hintergriinde, bzw. Fragen der 
Reproduktion oder des Wiedererkennens von Gedachtnisinhalten (Cannell et 
al. 1977). 
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In gewisser Hinsicht eine Zwischenstellung zwischen diagnostischen (Person- 
lichkeits- und Interessen-) und demoskopischen Fragebogen besitzen die soge- 
nannten Einstellungs-(Attituden-)skalen, die eingehend etwa bei Edwards 
(1957), Scheuch (1962), Sullwold (1969), Scheuch & Zehnpfennig (1974) be- 
handelt werden. Wie demoskopische Fragebogen werden sie fast ausnahmslos 
mit dem Endziel von Aussagen iiber Gruppen und nicht zu individual-diagno- 
stischen Zwecken eingesetzt, doch sind sie - von Eigentiimlichkeiten der 
Itemselektion abgesehen - formal mit diagnostischen Fragebogen identisch. 
Die Konstruktion von Einstellungsskalen geht stets von Iteminhalten aus, 
erfordert aber mindestens bei Skalen des Thurstone-Typs auch eine empirische 
Validierung. Wahrend flir die Lickert-Skalen die Trennscharfe unter Zugrun- 
delegung von Gesamtscore-Extremgruppen (also ein inhaltliches Konzept) das 
Selektionskriterium filr Items darstellt, werden bei den Thurstone-Skalen die 
Items unter Verwendung einer .Eichstichprobe' hinsichtlich der Extremitat 
der durch sie zum Ausdruck gebrachten Einstellung skaliert. Skalenwert des 
Individuums ist im erstgenannten Falle die Summe der graduell abgestuften 
Zustimmungen zu den Items, im letztgenannten Falle (Modifikationen dieser 
Vorgehensweise einmal unberlicksichtigt gelassen) der Skalenwert des Items, 
das der Proband am ehesten flir zutreffend halt. Abgesehen von Einwanden, 
die sich auf die ungepriift unterstellte Eindimensionalitat der gemessenen Sach- 
verhalte beziehen und denen Guttman mit der Skalogrammanalyse zu begeg- 
nen versuchte (vgl. Edwards 1957), ware bei der Verwendung von Zustim- 
mungsgraden in Lickert-Skalen die Dimensionalitat der Antworten, z.B. 
durch Zugrundelegung eines mehrkategoriellen probabilistischen MeBmodells 
zu beriicksichtigen (Wottawa 1980); jedenfalls laBt sich die mehr oder weniger 
willkurliche Verwendung von (gleichabstandigen) Gewichten flir die Zustim- 
mungsgrade bei der Bildung eines Gesamtscores kaurn rechtfertigen. Fiir 
Thurstone-Skalen ist ungeklart, wie sich Personen und an einer Eichstichprobe 
skalierte Items in einem gemeinsamen psychologischen Raum darstellen lassen 
konnten. Eine kritische Auseinandersetzung mit den Ansatzen von Thurstone, 
Lickert und Guttman sowie alternative Vorgehensweisen finden sich z.B. bei 
Feger (1974) und Lantermann & Gehlen (1977). 

Trotz der vorstehend beschriebenen Akzentuierungen gibt es hinsichtlich 
zahlreicher Probleme keine prinzipiellen Unterschiede zwischen diagnosti- 
schen Fragebogen, Einstellungsskalen und demoskopischen Fragebogen, so 
daB die nachfolgenden Ausfiihrungen sich nur ausnahmsweise explizit auf 
bestimmte Anwendungssituationen beziehen. 
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1.2 Ansatze zu einer Theorie des Beantwortungsprozesses 
1.2.1 D eterminanten des A ntwortverhaltens 

Als erster Schritt auf dem Wege zu einer Theorie des Beantwortungsprozesses 
bietet sich die Analyse dessen an. was bei der Entstehung einer Antwort in der 
Vp vor sich geht. Entsprechende Untersuchungen sind fur den Fall von Per- 
sonlichkeitsfragebogenitems mehrfach durchgeflihrt worden (vgl. etwa die 
Nachweise bei Cronbach 1970, Schneider-Dilker & Schneider 1977, Kali- 
nowsky-Czech 1979), ihre Ergebnisse diirften sich prinzipiell aber auch auf 
demoskopische Fragen iibertragen lassen. Turner & Fiske (1968) und in Fort- 
fiihrung dieses Ansatzes Kuncel (1973, vgl. auch Fiske 1978) und ebenso No- 
wakowska (1971) verwendeten einen ,Mets-Fragebogen’ zur nachtraglichen 
Erfassung der Beantwortungsprozesse, Schneider-Dilker & Schneider (1977) 
und Kalinowsky-Czech (1979) bedienten sich der Methode des .Lauten Den- 
kens', die letztgenannte Autorin lieB ihre Vpn auBerdem frei zu den Items 
assoziieren. Rogers (1974 a, b) variierte bestehende Charakteristika der Items 
experimentell und zog ausgehend von den Veranderungen der Beantwortungs- 
zeiten (Reaktionszeiten) Schliisse auf den BeantwortungsprozeB. Cliff et al. 
(1973) und Cliff (1977) versuchten. Beziehungen zwischen der Beantwortung 
von Items und ihrer Bedeutung (ausgehend von der MDS ihrer Ahnlichkeits- 
struktur) herzustellen. ubereinstimmend zeigten diese Untersuchungen, daB 
einerseits das Verstandnis ein- und derselben Frage von Vp zu Vp betrachtlich 
variiert und andererseits die Beantwortungsprozesse ein- und derselben Vp 
itemspezifisch recht unterschiedlich ablaufen (vgl. auch Crutchfield & Gordon 
1947). Turner & Fiske (1968) etwa klassifizierten ausgehend von MMPI-Items 
nur etwa 50% der von Vpn beschriebenen Beantwortungsprozesse als adaquat 
im Sinne der Intention des Fragebogens bzw. seiner Autoren. Dazu diirfte 
u.a. beitragen, daB die Vorstellungen, die Vpn mit den in Fragebogenitenrs 
haufig anzutreffenden unbestimmten Zahlen- und Haufigkeitsangaben (,eini- 
ge‘, ,manchmal‘) verbinden, sehr unterschiedlich sind (Simpson 1944, Strahan 
& Gerbasi 1973, Schriesheim & Schriesheim 1974, Rohrmann 1978. Bradburn 
& Sudman 1979). 

Weitere Erkenntnisse betreffend die Determination des Antwortverhaltens 
kommen sodann von experimentellen Untersuchungen zur Verfalschbarkeit 
(faking) von Antworten auf Fragebogenitems, z.B. in vorgestellten Situatio- 
nen, und von Untersuchungen zur Wirksamkeit von Antworttendenzen bei 
der Bearbeitung von Fragebogen in Ernstsituationen. Auf die kauni noch 
iiberschaubare Ftille der dazu vorliegenden empirischen Befunde kann an die- 
ser Stelle nicht naher eingegangen werden, zusammenfassend orientieren dar- 
iiber z.B. Block (1965), Berg (1967), Anastasi (1968), Cronbach (1970), Ed- 
wards (1970). Im deutschen Sprachraum sind insbesondere Untersuchungen 
von Cohen & Carl (1964), Carl (1968), Furntratt (1969), Tholey (1976), Ham- 
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pel & Klinkhammer (1978), Jannssen (1978), Hacker et al. (1979) und mehrere 
Arbeiten von Hoeth und Mitarbeitern (zusammenfassend Hoeth 1980) zu 
nennen. 

Mit Moglichkeiten der Vermeidung bzw. Erfassung und Elimination der Ein- 
fliisse von Antworttendenzen (Reaktionseinstellungen, response sets) und den 
Schwierigkeiten ihrer Realisierung bei der Fragebogenkonstruktion setzen sich 
u.a. Ehlers (1973), Janke (1973) und Keil (1973) auseinander. 

Als Antworttendenzen konnte man allgemein diejenigen systematischen An- 
teile im Antwortverhalten der Vpn bezeichnen, die nicht auf den jeweiligen 
(subjektiv) wahren Sachverhalt, sondern auf die Form der Frage bzw. der 
Befragung insgesamt zuruckzufuhren sind. Untersucht wurden derartige Ant- 
worttendenzen vor allem im Zusammenhang mit diagnostischen Fragebogen, 
doch lassen sie sich nach Hoeth (1980) auch ftir demoskopische (sozialwissen- 
schaftliche) Fragebogen leicht aufzeigen. 

Bei den fragen i n haltsori en t i er ten Antworttendenzen wie Simulation, Dissimu- 
lation und der besonders intensiv untersuchten Tendenz zu sozial erwlinschten 
Antworten (SD-Tendenz) werden die Antworten auf Fragen im Hinblick auf 
ganz bestimmte Zwecke (z.B. einen ,guten Eindruck' zu rnachen) verfiilscht. 

Demgegentiber erfolgt bei den antworti nhaltSOfientierten Antworttendenzen 
(den response sets im engeren Sinne) eine Bevorzugung von Antworten ganz 
bestimmten Inhalts ohne Rucksicht auf die Inhalte der Fragen. Am meisten 
Aufmerksamkeit auch im Hinblick auf Beziehungen zu bestimmten Person- 
lichkeitsmerkmalen hat dabei die Bejahungs- oder Zustimmungstendenz (ac- 
quiescence) gefunden, auBerdem wurden Verneinungstendenzen, Mittenten- 
denzen, Extremtendenzen und Variationstendenzen aufgezeigt. 

SchlieBlich gibt es n i cht- i n h a I tsor i en t i erte Antworttendenzen, dazu gehoren 
Positionseffekt und formale Antwortstereotypien (Antwortmuster). 

Antworttendenzen und Unterschiede im Verstandnis von Fragebogenitems 
stellen im Rahmen einer rationalen (inhaltsorientierten) Fragebogenkonstruk- 
tion (sample-approach) sicherlich ein schwerwiegendes Problem dar (Eysenck 
1953), das durch geeignete Formulierung und Zusammenstellung von Items 
bzw. durch Verwendung spezieller Fragen oder Fragentypen (forced-choice- 
items) bestenfalls gemildert, nicht jedoch ilberwunden werden kann (Ehlers 
1973, Keil 1973). 

Ihrer Natur nach sind Verstandnisunterschiede und Antworttendenzen nicht 
als intraindividuell unkorrelierte Zufallsfehler mit einem Erwartungswert von 
Null anzusehen, so daB entsprechend dem Reliabilitatskonzept der klassischen 
Testtheorie erwartet werden diirfte. daB sie sich mit steigender Zahl homoge- 
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ner Items zur Erfassung des jeweiligen Sachverhaltes tendenziell aufheben. Ein 
probabilistisches MeBmodell bietet zwar prinzipiell den Vorteil, daB sich hier 
im individual-diagnostischen Anwendungsfall von den Eigentumlichkeiten der 
verwendeten Items (Item-Parametern) befreite spezifisch objektive Personen- 
kennwerte (Personen-Parameter) bestimmen lassen, im Falle von gruppen- 
deskriptiven Zielsetzungen Kennwerte @em-Parameter), die von den verwen- 
deten Vpn (Personen-Parametern) bereinigt sind (Sixtl 1972, Andersen 1973, 
Fischer 1974), doch wttrden Antworttendenzen und Verstandnisunterschiede 
der Items bei verschiedenen Vpn gravierend gegen die Modellannahme der 
Unabhangigkeit der Item- von den Personen-Parametern verstoBen. Innerhalb 
eines inhaltsorientierten (rationalen) Ansatzes zeichnen sich also keine Mog- 
lichkeiten ab, das Problem der Antworttendenzen und Verstandnisunterschie- 
de ftir Items zu Ibsen (im Zusammenhang mit Uberlegungen zur Fragenformu- 
lierung wird auf diesen Punkt noch einrnal zuruckzukommen sein, vgl. 3.). 

Im Rahmen des rein empirischen Validitatskonzeptes ftir Fragebogen (sign- 
approach) stellen die Unterschiede im Verstandnis der Fragen kein prinzipiel- 
les Problem dar. Vielmehr ist durchaus denkbar, daB sie eine wesentliche 
Grundlage der empirischen Validitat sind und daB diese sinken wiirde, wollte 
man die Verstandnisunterschiede zwischen Vpn reduzieren (Cronbach 1970, 
Mittenecker 1971). 

So berichten Strahan & Gerbasi (1973) tatsachlich deutliche Korrelationen 
zwischen Interpretationen von Items und Personlichkeitsdimensionen (die sie 
freilich anders interpretieren). Die Minimalbedingung ftir die Brauchbarkeit 
von Antworten in Fragebogen ist nur, daB sie . . irgendwie psychologisch 
bedeutsame Reaktionen . . sein miissen (Mittenecker 1971, 480). 

Solche Reaktionen liegen nur dann nicht vor, wenn die Vp auf Items eines 
Fragebogens ohne Bezug zum Inhalt von Frage- oder Antwortmoglichkeiten 
reagiert, d.h. z.B. zufallig oder willkurlich antwortet. Verfalschungstenden- 
zen (wie soziale Erwunschtheit) bzw. responsesets (wie acquiescence) konnen 
dagegen als solche psychologisch bedeutungsvoll sein und schlieBen die Ver- 
wendbarkeit von Reaktionen nicht a priori aus (Cattell 1974). Unter dent 
Begriff .response style 1 hat man insbesondere die Zustimmungstendenz (ac- 
quiescence) selbst zum Personlichkeitsmerkmal erhoben, also das, was ur- 
sprlinglich eine Verfalschung der Antworten zu sein schien, zu einer inhaltlich 
interessierenden Fragebogenvariablen gemacht (vgl. als kritische Ubersicht 
Rorer 1965). 

1.2.2 A ntwortgenese 

Die prinzipiellen Moglichkeiten ftir das Zustandekommen der Antwort auf ein 
Fragebogenitem sind in Abb. 1 in Form eines FluBdiagramms dargestellt, in 
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Abb. 1: Modell der Antwortgenese 
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das Vorstellungen von Getzels (1954), Damarin (1970), Nowakowska (1971), 
Schneider (1972) eingegangen sind. Dabei handelt es sich um ein Modell der 
Antwortgenese, nicht etwa um eine phanomenologische Beschreibung, d.h. es 
wird nicht angenommen, daB die Antwortgenese sich im BewuBtsein der Vp 
so darstellt, wie das Modell sie abbildet. 

Eine Antwort in dem hier zugrundegelegten Sinne ist auch die Nichtbeantwor- 
tung (das Ausbleiben einer inhaltlichen Antwort) bzw. die Enthaltung (Wahl 
einer Neutralkategorie). 

Bei der Entstehung einer Antwort gibt es zunachst die Moglichkeit, daB die 
Vp, z.B. weil sie nicht zu angemessener Mitarbeit bereit ist, vom Inhalt des 
Items bzw. von den Inhalten der Antwortmoglichkeiten ganzlich unbeeinfluBt 
reagiert. Dies filhrt zu einer mindestens im Zusammenhang mit dent Item 
psychologisch nicht bedeutungsvollen, ,zufalligen‘ oder willklirlich systemati- 
schen Antwort (A4). Derartige Antworten konnen die Grundlage sogenannter 
Positionseffekte sein. Natlirlich besteht die Moglichkeit, aus dem Beantwor- 
tungsprozeB ,auszusteigen‘ und nach A4 zu verzweigen, auf alien nachgeord- 
neten Stufen. Im Interesse der Ubersichtlichkeit haben wir dies im FluBdia- 
gramm nicht eigens vorgesehen (wollte man es tun. konnte man nach jedem 
Schritt eine weitere Abfrage , Motivation noch ausreichend‘ o.a. einbauen). 

Sodann kann eine Antwort zustande kommen durch die Verarbeitung von 
Frage und explizit oder implizit vorgegebenen Antwortmoglichkeiten unter 
Heranziehung von Gedachtnisinhalten (Wissen, Normen). Dies setzt voraus, 
daB ein subjektives (d.h. von der Vp als solches erlebtes) Verstandnis von 
Frage und/oder Antwortmoglichkeiten erzielt worden ist. Sieht man von A4. 
der psychologisch nicht bedeutungsvollen Antwort, ab, so kann die Vp ihre 
Antwort nach dem Kriterium der subjektiven Richtigkeit (Wahrheit) als richti- 
ge Antwort (Al), in Verfolgung eines bestimmten Zweckes z.B. entsprechend 
der (subjektiven) sozialen Erwlinschtheit (A2) oder nach MaBgabe einer bei ihr 
vorherrschenden Reaktionstendenz (response set), also ohne Rucksicht auf 
den Fragen-, aber mit Bezug auf den Antwortinhalt auswahlen (A3). Alle diese 
Moglichkeiten entsprechen der Minimalbedingung der psychologischen Be- 
deutsamkeit (Mittenecker 1971) fur Antworten. 

Ist eine Frage flir eine Vp bedeutsam, d.h. trifft sie auf ihre eigene Situation zu 
und verbindet sie mit der Frage kognitive Inhalte oder positive bzw. negative 
Assoziationen, so ist sie auch in der Lage. zu bestimmen, welche Antwort die 
subjektiv richtige (Al) ist (Nowakowska 1971). Diese Antwort wird sie un- 
mittelbar als endgiiltige Antwort (A) verlautbaren, wenn sie keine Kriterien 
(spezifische Erfahrung mit Antwortkonsequenzen, verinnerlichte gesellschaft- 
liche Normen) fur die ZweckmaBigkeit (z.B. flir die soziale Erwlinschtheit) 
einer Antwort besitzt. Besitzt sie solche Kriterien, so wird sie zusatzlich eine 
,zweckmaBige‘ (d.h. meist sozial erwiinschte) Antwort (A2) entwerfen, die 
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mit der subjektiv richtigen Antwort iibereinstimmen (A1 = A2) oder von 
dieser abweichen kann. Daneben gibt es auch die Moglichkeit, daB die Vp eine 
subjektiv richtige Antwort (z.B. mangels Betroffensein) nicht kennt, jedoch 
weiB, welche Antwort zweckmaBig, z.B. sozial erwunscht ist. In diesem Fall 
wird sie eine sozial erwtinschte Antwort (A2) wahlen (die nattirlich auch in 
einer Nichtbeantwortung oder Enthaltung bestehen kann). Einerseits unter- 
scheiden sich Probanden in der Neigung, relativ unabhangig von der konkre- 
ten Frage sozial erwunscht zu antworten, andererseits unterscheiden sich aber 
auch Fragen in der Neigung, relativ unabhangig von den Probanden sozial 
erwunscht beantwortet zu werden. Holm (1974 b) differenziert dementspre- 
chend im Rahmen seiner faktorenanalytischen Theorie der Frage bzw. Fragen- 
batterie zwischen einer ,allgemeinen sozialen Erwiinschtheit' und einer (fra- 
gen-) .spezifischen sozialen Erwiinschtheit'. Letztere wird haufig auch als 
Suggestivwirkung einer Frage bezeichnet. 

Stehen sich zwei verschiedene Antwortmoglichkeiten, eine subjektiv richtige 
(A 1 ) und eine zweckmaBige, z.B. sozial erwtinschte (A2) gegeniiber, so trifft 
die Vp nach den Ergebnissen von Nowakowska (1971), die sie mittels Fakto- 
renanalyse von Zusammenhangen in den Beschreibungen der Beantwortungs- 
prozesse bei 28 Items aus dem 16 PF von Cattell gewann. die Entscheidung in 
Abhangigkeit von der subjektiven Niitzlichkeit (N) der Antwort. Die subjek- 
tive Nutzenfunktion wird dabei durch die erwarteten materiellen und gesell- 
schaftlichen Konsequenzen der Antwort einerseits und die Konsequenzen ftir 
das Selbstwertgefiihl (z.B. bei Abweichung von der Wahrheit) andererseits 
bestimmt. Die Optimierung unter dem Kriterium des subjektiven Nutzens 
kann zur Wahl von A1 oder A2 fiihren oder eine kombinierte Antwort (Al/2) 
= f (Al, A2) erzeugen, also eine durch ‘ZweckmaBigkeitsiiberlegungen ver- 
falschte richtige bzw. eine in dem Bestreben nach Wahrheit veranderte Zweck- 
antwort. Diese Veranderung der Antwortentwiirfe kommt fiir die Vp natiir- 
lich nur in Betracht, wenn Al und A2, d.h. die wahre und die zweckmaBige 
Antwort, divergieren. 

Fragen, bei denen die Vp erhebliche gesellschaftliche Konsequenzen im Falle 
einer sozial nicht erwiinschten Beantwortung erwartet, diirften den groBten 
Teil dessen abdecken, was in der Literatur unter den Bezeichnungen ,schwieri- 
ge‘, ,heikle‘, ,unangenehme‘ Fragen abgehandelt wird. Fur solche Fragen gilt 
als typisch, daB sie relativ hohe Nichtbeantwortungsquoten aufweisen. Ver- 
mutlich handelt es sich hier um Falle, in denen der Konflikt zwischen wahrer 
und zweckmaBiger (sozial erwtinschter) Antwort durch Nichtbeantwortung 
gelost wird, d.h. in denen die Nichtbeantwortung den hochsten subjektiven 
Nutzen verspricht. In diese Richtung deuten die Ergebnisse von Koolwijk 
(1968, 1969), denenzufolge Fragen nicht an sich unangenehm sind, sondern in 
Abhangigkeit davon, wie die wahre Antwort der Vp ausfallen mufite, in sehr 
verschiedenem AusmaB als unangenehm empfunden werden. 
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Gelingt es der Vp, z.B. aus Mangel an Aktualitat (subjektiver Bedeutsamkeit) 
der Frage und an Vorstellungen iiber gesellschaftliche Konsequenzen der Ant- 
worten nicht, eine am Frageninhalt orientierte Antwort (Al, A2, Al/2) zu 
entwickeln, so tritt eine vom Frageninhalt unabhangige und - soweit solche 
vorhanden sind - durch Antwortbevorzugungstendenzen bestimmte Ant- 
wort auf. Derartige response sets kommen demnach also nur ins Spiel, wenn 
eine Vp weder Kriterien fiir eine richtige, noch solche fiir eine zweckmaBige 
Antwort hat. Holm (1974a) spricht in dieseni Falle von Fragen ohne klare 
Zieldimension. Die Tendenz zu sozial erwiinschten Antworten hat demgegen- 
iiber andere Qualitat. Sie tritt nicht nur auf, wenn die Vp eine wahrheitsgema- 
Be Antwort nicht zur Verfligung hat, sondern konkurriert mit dieser. 

Sollte bei Unmoglichkeit frageninhaltsorientierten Antwortens (Al, A2, Al/2) 
die Vp auch nicht liber Antwortbevorzugungstendenzen verfligen, die A3 
determinieren kdnnten, tritt eine willkiirliche Antwort (A4) auf, bei der es sich 
natiirlich auch um eine Auslassung handeln kann. 

Deni Untersucher steht im Normalfall nur die endgiiltige Antwort (A) der Vp 
zur Verfiigung. Durch Konstruktion des Fragebogens sollte er soweit als mog- 
lich sicherstellen, daB bei zugrundegelegtem inhaltlichen Validitatskonzept 
(sample approach) A = Al, bei empirischem Validitatskonzept (sign appro- 
ach) im Sinne obiger Minimalbedingungen A ^ A4 ist. 

Fiir einen Teil der Fragen in demoskopischen Interviews existieren objektiv 
richtige Antworten. In diesen Fallen ist es gerechtfertigt, von .Beantwortungs- 
fehlern" (response-errors) zu sprechen. Unter (im Vergleich zu obigem Modell 
der Antwortgenese) starkerer Betonung der Ursachen fiir die Fehler unter- 
scheiden Lansing et al. (1961) 

motivationsbedingte Beantwortungsfehler, die vorliegen, wenn der Pro- 
band nicht motiviert ist, die richtige Antwort zu geben, selbst wenn er das 
konnte (vgl. Cattell 1974), 

- kommunikationsbedingte Beantwortungsfehler, die vorliegen, wenn 

der Proband nicht versteht, welche Information von ihm erwartet wird, 
d.h. der Fragesteller sich nicht verstandlich gemacht hat, 
der Untersucher die vom Probanden libermittelte Information nicht 
versteht, d.h. der Proband sich nicht verstandlich gemacht hat, 
Unwissenheitsfehler, die vorliegen, wenn dem Probanden die erbetene In- 
formation nicht zur Verfligung steht. 

Diesen B eantwortu ngsfehlern (response-errors) sind noch die A ntwortverwei- 
ger U n gsfeh I er (errors-of-non-response) an die Seite zu stellen, also Fehler, die 
die Verallgemeinerungsfahigkeit von Befragungsergebnissen betreffen und die 
ganz besonders im Zusammenhang mit unpersonlichen (z.B. postalischen) 
Befragungen ein gravierendes Problem sind. Als dritter Fehlertypus neben 
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Beantwortungs- und Antwortverweigerungsfehlern sind Sti ch pr oben feh I er in 
Rechnung zu stellen (Lansing et al. 1961), die - da es sich nicht um spezifisch 
mit Befragungen bzw. Fragebogen verbundene Fehler handelt - im Rahmen 
dieser Abhandlung unberiicksichtigt bleiben sollen. 



1.2.3 Die F rage als Suchbegriff 

Aus der eher makroskopischen Betrachtungsweise des Modells fiir die Ant- 
wortgenese soil ein Aspekt wegen seiner Wichtigkeit herausgegriffen und et- 
was naher beleuchtet werden: die Auffindung der fiir die subjektiv richtige 
Antwort erforderlichen Gedachtnisinhalte. Insbesondere bei einer Ausrich- 
tung von Fragen auf inhaltliche Validitat wird man sich nicht mit der Abfrage 
,wahre Antwort bekannt' (siehe Abb. 1) zufrieden geben, man wird sich viel- 
mehr iiberlegen miissen, wie die Vp versucht, die wahre Antwort aufzufinden, 
und wie der Fragebogenkonstrukteur ihr dabei helfen kann. Cannell et al. 
(1977) haben im Zusammenhang mit der Diskussion von Faktenfragen, also 
von Fragen, fiir die inhaltliche Validitat angestrebt wird, deutlich gemacht, 
dafi fiir solche Fragen einerseits die Speicherung der Information im Gedacht- 
nis der Vp und die zu ihrer Auffindung erforderlichen Suchprozesse, anderer- 
seits die Vorstellungen des Fragebogenkonstrukteurs von den zu erfragenden 
Fakten naher untersucht und in einer formulierten Frage zur Deckung ge- 
bracht werden miissen. Abb. 2 (in Anlehnung an Cannell et al. 1977, 53) gibt 
die dabei mindestens zu beachtenden Schritte wieder. 

Eine Gedachtnisspur nimmt nicht vom wahren Sachverhalt, sondern vom Pha- 
nomen, d.h. von dem im Erleben des Probanden realisierten Sachverhalt ihren 
Ausgang, wohingegen der Untersucher seine Vorstellung des Sachverhaltes 
zugrundelegt. Da der Untersucher zunachst nicht weiB, wie ein Proband einen 
bestimmten Sachverhalt erlebt und in welcher Kodierung er ihn abgespei- 
chert hat, ist es - um die Wahrscheinlichkeit der Auffindung zu erhohen - 
erforderlich, moglichst viele alternative Vorstellungen von dem Sachverhalt zu 
entwickeln. Um ein Beispiel von Cannell et al. (1977) zu verwenden: Was sich 
fiir den Untersucher als .zahnarztliche Behandlung 1 darstellt, kann im Erleben 
des Befragten in erster Linie eine ,besonders schmerzhafte Erfahrung' oder 
eine ,hohe finanzielle Belastung‘ gewesen sein. Fragt man nicht nur nach 
.zahnarztlicher BehandlungL sondern verwendet auch die beiden alternativen 
Vorstellungen vom Sachverhalt, so erhoht man die Wahrscheinlichkeit, dafi 
der Proband die gesuchte Information in seinem Speicher auffindet. Aber auch 
ein bestimmter erlebter Sachverhalt kann in sehr verschiedene Bezugssysteme 
eingebettet sein. Bei der Operationalisierung des Sachverhaltes als Untersu- 
chungsvariable kommt es darauf an, moglichst viele der in Frage kommenden 
Bezugssysteme zu beriicksichtigen. Fragt man nach Krankheiten des Proban- 
den nicht nur im Kontext eines Klassifikationsschemas fiir Krankheiten, son- 





Abb. 2: Interaktion von Frage und kognitiver Struktur der Information 
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dern z.B. auch auf dem Hintergrund der Bezugssysteme ,Symptome‘ 
(Schmerzen), .Ereignisse' (Krankheitsfalle) und .Lebensgewohnheiten" (Diat, 
Medikamenteneinnahme etc.), so lassen sich die Nennungen tatsachlich vorlie- 
gender Krankheiten ganz betrachtlich erhohen (Cannell et al. 1977). Verande- 
rungen der Gedachtnisspur durch andere kognitive Inhalte rniissen dabei in 
Betracht gezogen werden. So kann z.B. ein Krankenhausaufenthalt in der 
Kindheit durch spatere Krankenhausaufenthalte an subjektiver Bedeutsamkeit 
verlieren. Bei der Umsetzung der Untersuchungsvariable .Krankenhausauf- 
enthalte 1 ware dies z.B. dadurch zu berlicksichtigen, dafi man den Probanden 
fragt, ob ein berichteter Krankenhausaufenthalt tatsachlich der erste Aufent- 
halt in einem Krankenhaus war. 

Die in Abb. 2 aufgelisteten Verarbeitungsprozesse auf seiten des Befragten 
sollten vom Untersucher stets im Auge behalten werden, wenn er versucht, 
einen Sachverhalt mit Hilfe von Fragen zu erfassen. Soweit es sich um 
Wissenstatbestande handelt, muB dabei eine Optimierung der Befragungssi- 
tuation im Hinblick auf die Wiedergabe (Reproduktion bzw. Wiedererken- 
nen) angestrebt werden, ein Gebiet, das im Vergleich zum optimalen Lernen in 
der empirischen Forschung bisher recht stiefmiitterlich behandelt worden ist 
(Cannell et al. 1977). Nur dann wird man erreichen konnen, daB die Beant- 
wortungsfehler, von denen der Untersucher gerne spricht und die er nur in 
Ausnahmefallen (methodologischen Studien) als solche erkennen kann, nicht 
in Wahrheit Befragungsfehler sind. 



1.3 Einordnung der Fragebogenkonstruktion in die Stadien 
einer Befragung 

Die Konstruktion eines Fragebogens ist eingebettet in den ProzeB der Pla- 
nung, Vorbereitung, Durchfiihrung und Auswertung einer Befragung oder 
Testung. Um diese Einbettung deutlich zu machen, ftthren wir nachstehend 
die wichtigsten Stadien dieses Prozesses fur demoskopische Befragungen auf. 
SinngemaB sind sie auch auf diagnostische Untersuchungen ubertragbar. Die 
Fragebogenkonstruktion im engeren Sinne unifaBt dabei Entwurf, Erprobung 
und Revision eines Fragebogens, notigenfalls mehrfach wiederholt. 

a. Sichtung und Aufarbeitung der zum Themenbereich vorliegenden theoreti- 
schen Ansatze und empirischen Befunde, besonders soweit es sich um 
Ergebnisse fruherer Befragungen handelt. 

b. Formulierung der genauen Fragestellung, soweit es sich um eine Befragung 
mit hypothesenprufendem Anspruch handelt auch der Hypothesen, dabei 
auch explizite Festlegung der Grundgesamtheit, auf die sich die Hypothe- 
sen beziehen. 

c. Differenzierung der Fragestellung in einzelne, als Untersuchungsvariablen 
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geeignete Aspekte (Definition der abhangigen Variablen, der .Programm- 
fragen‘ i. S.v. Noelle 1963). 

d. Festlegung der interessierenden und zu erfassenden Kovarianten. 

e. Erweiterung der Informationsbasis z.B. durch Expertenbefragungen, freie 
Explorationen mit Betroffenen, Gruppendiskussionen, aber auch durch 
Analyse von Medien u.a. Dieser Schritt kann evtl. auch schon an friiherer 
Stelle erfolgen. 

f. Soweit erforderlich Revision der in b.-d. getroffenen Festlegungen auf- 

grund der Erkenntnis in e. 

g. Festlegung der genauen Untersuchungsmethode, vor allem Entscheidung 
zwischen miindlicher, personlich-schriftlicher oder unpersonlich-schriftli- 
cher Befragung auf dem Hintergrund der inhaltlichen Festlegungen in den 
Schritten a.-f. 

h. Erstellung eines Fragebogenentwurfs durch 

Operationalisierung der Untersuchungsvariablen, d.h. ihre Umset- 
zung in ,Ermittlungsfragen‘ (Noelle 1963) unter Beriicksichtigung 
moglicher Formulierungseffekte, 

Festlegung des Befragungsverlaufes durch Definition der Reihenfolge 
der Fragen unter Beriicksichtigung moglicher Reihenfolgeeffekte, 
Festlegung der Fragebogengestaltung (Layout) unter Beriicksichtigung 
moglicher Einfliisse auf Antwortbereitschaft und Art der Beantwor- 
tung. 

Bei der Erstellung des Fragebogenentwurfs sind aufier den inhaltlichen 
Gesichtspunkten und den genannten moglichen Einfliissen auf das Ant- 
wortverhalten besonders auch die jeweilige Zielpopulation (Grundgesamt- 
heit) und die genaue Befragungsmethode zu bedenken. AuBerdem muB 
schon in diesem Stadium im Hinblick auf Kodierungen die spatere Aus- 
wertung genau geplant werden. 

i. Erprobung des Fragebogens (Pretest) an einer im Vergleich zur Hauptun- 
tersuchung kleineren, aber fur die Grundgesamtheit ebenfalls reprasentati- 
ven Stichprobe. Im Rahmen dieser Erprobung sollten einerseits Intervie- 
wer die Vpn bei der Beantwortung der Fragen moglichst systematisch 
beobachten, um Verstandnisschwierigkeiten besonders durch Fragenfor- 
mulierungen und Fragenreihenfolge (Verzweigungen) aufzudecken. Zum 
anderen sollten die Antworten der Vpn verwendet werden 

zur Entdeckung haufig ausgelassener Fragen, 

zur Ermittlung und Analyse von Antwortverteilungen (mehrgipflige 
Verteilungen weisen haufig auf Mehrdeutigkeit der Fragen hin), 

- zu Itemanalysen bzw. -Validierungen, je nach verfolgtem Validitats- 
konzept (dabei konnen z.B. Konsistenzanalysen, Stabilitatsbestim- 
mungen. Kriteriumskorrelationen der Items und Faktorenanalysen der 
Iteminterkorrelationen angezeigt sein), 

zur Entdeckung von Verfalschungsmoglichkeiten (soziale Erwiinscht- 
heit, response sets) und Tendenzen zu unsorgfaltiger (zufalliger) Be- 
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antwortung (dabei ist auch eine Bestimmung des akzeptablen Fragebo- 
genumfangs vorzunehmen und zu ermitteln, ob zusatzliche Instruktio- 
nen erforderlich sind). 

Auf dieser Stufe, evtl. auch schon bei der Erstellung des ersten Fragebo- 
g e n e n t w ur f e s , konnen evtl. Sprachanalysen der Fragenformulierungen 
(vgl. z.B. Ash & Edgell 1975) oder Untersuchungen zur Unangenehmheit 
bestimmter Fragen in Subpopulationen (vgl. Koolwijk 1968) niitzlich sein. 
j. Revision des Fragebogenentwurfs (h). evtl. auch der Entscheidung iiber die 
Befragungstechnik (g), die Fragestellung (b) bzw. die Untersuchungsvaria- 
blen (c) und Kovarianten (d) und erneute Erprobung des veriinderten Fra- 
gebogenentwurfs. Veranderungen und erneute Erprobungen sind solange 
zu wiederholen, bis eine befriedigende ,Endfassung‘ erstellt ist. 
k Wahl eines angemessenen Verfahrens der Stichprobenziehung und Durch- 
fiihrung der Stichprobenziehung. 

l. Soweit persbnliche Befragungen durchgefiihrt werden sollen. Auswahl und 
Schulung der Interviewer. 

m. Durchfiihrung der Befragung, im Falle unpersonlicher (z.B. postalischer) 
Befragung mit mehrstufigem ,Nachfassen‘. 

o. Formale Auswertung einschlieBlich statistischer Hypothesenprtifung. 

Bei der Auswertung eines Fragebogens empfiehlt es sich, Plausibilitiitskon- 
trollen der Antworten durchzuflihren, um Falle zu entdecken. in denen 
z.B. die Eintragung der Antwort durch Interviewer oder Befragten an der 
falschen Stelle oder ohne Berucksichtigung des Inhalts nach einem be- 
stimmten System erfolgt ist. Das gilt besonders beini Einsatz von Fragebo- 
gen zu diagnostischen Zwecken, da andernfalls gravierende Folgen flir den 
Probanden eintreten konnen. Eintragungen an falscher Stelle lassen sich in 
der Regel naturlich nur entdecken, wenn richtige Antworten existieren. 

p. Interpretation der Ergebnisse unter Berucksichtigung der allgemeinen rne- 
thodenspezifischen Beschrankungen bzw. Validitatsvorbehalte und gege- 
benenfalls auch der tatsachlich aufgetretenen methodischen Unzulanglich- 
keiten (z.B. Rilcklauf bei postalischer Befragung). 

q. Einordnung der Befunde in den Wissensbestand, vor allem Darlegung von 
Abweichungen und Ubereinstimmungen mit 

- fremden Befunden mit vergleichbarer Methode, 

- Befunden aufgrund andersartiger Methoden. 

r. Gegebenenfalls Erarbeitung von Hinweisen auf Probleme und Sachverhal- 
te, die bei weiteren Untersuchungen innerhalb des Themenbereichs beach- 
tet werden sollten. 

Viele der o.a. Gesichtspunkte sind nicht fur die Befragung als Untersuchungs- 
methode spezifisch oder beriihren nicht die Konstruktion des Fragebogens im 
engeren Sinne. Ihre Auflistung niacht deutlich, daB die Fragebogenkonstruk- 
tion nur ein (wenn auch wichtiger) Schritt im Zusammenhang mit einer empi- 
rischen Untersuchung oder diagnostischen Urteilsbildung ist. In den folgen- 
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den Abschnitten werden vor allem die bei der Erstellung des Fragebogenent- 
wurfs erforderlichen Uberlegungen zur Fragenformulierung, zur Festlegung 
der Fragenreihenfolge und zur auBeren Gestaltung des Fragebogens (Layout) 
eingehender behandelt. Ein Handbuchartikel muB sich dabei wegen des be- 
grenzten verfugbaren Raumes mehr oder weniger auf eine Aufzahlung von 
Problemen und Losungsansatzen beschranken. Mindestens in einzelnen 
Aspekten weitergehende, teilweise auch starker praxisbezogene Darstellungen 
sind unter vielen anderen Jonsson (1957), Noelle (1963), Richardson et al. 
(1965), Stroschein (1965), Oppenheim (1966), Phillips (1966, 1970), Richter 
(1969), Atteslander (1971), Friedrich (1971), Mayntz et al. (1971), Munch 
(1971), Friedrich (1973), Muccielli (1973), Scheuch (1973), Koolwijk & Wie- 
ken-Mayser (1974), Kreutz & Titscher (1974), Friedrich & Hennig (1975), 
Holm (1975b), Kirschhofer-Bozenhardt & Kaplitza (1975), Burisch (1976), 
Karmasin & Karmasin (1977). Uber Befragungsmethoden allgemein informie- 
ren auBerdem Jetzschmann & Kallabis (1966), Cannell & Kahn (1968), Anger 
(1969), Konig (1972), Maccoby & Maccoby (1972), Sheatsley (1972), Behrens 
(1974), Schreiber (1974), Steward & Cash (1974), Wilk (1974), Holm (1975a). 



2. Fragentypen 

2.1 Zielsetzungen von Fragen 

Nicht jede in einem Fragebogen verwendete Frage hat die Aufgabe, inhaltlich 
oder im Sinne von ,Zeichen‘ (signs) interessierende Informationen zu erheben. 
Bestimmte Fragen haben Merkmale im Auge. die nicht als solche interessieren 
und nur im Hinblick auf Interpretationen oder Erklarungen der eigentlich 
thematischen Sachverhalte von Bedeutung sind (dazu gehoren in der Regel die 
Angaben zur Person des Interviewten). AuBerdem gibt es Fragen, die nur 
innerhalb des Fragebogens bzw. der Befragung bestimmte Aufgaben zu erfttl- 
len haben. In leichter Abwandlung der Terminologie vor Stroschein (1965) sei 
die erste Gruppe als die der ,Ergebnisfragen‘ , die zweite als die der ,Korrela- 
tionsfragen' und die dritte als die der , instrumentellen Fragen ‘ angesprochen. 

Diese letztgenannte Gruppe, fiir die auch die Bezeichnung ,Funktionsfragen‘ 
gebrauchlich ist (z.B. Anger 1969), laBt sich weiter unterteilen in: 

a. Kontrollfragen, und zwar einmal Erhebungskontrollfragen (z.B. Fragen 
nach Ort und Zeitpunkt des Interviews) zur Gewahrleistung der Nachpruf- 
barkeit und Auskunftskontrollfragen (z.B. Wiederholungsfragen). mit deni 
Ziel der Ermittlung der Konsistenz des Antwortverhaltens, 

b. Ablauf-Ordnungsfragen, insbesondere Filter-Fragen mit der Aufgabe, Be- 
fragte mit bestimmten Merkmalen von bestimmten Fragen auszuschlieBen, 
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und Gablungs- oder Verzweigungs-Fragen mit der Aufgabe, antwortabhan- 
gig zu verschiedenen Folgefragen zu verzweigen, 
c. befragungstaktische Fragen wie Einleitungsfragen mit der Aufgabe, den 
Kontakt zur Befragungsperson herzustellen, Unterweisungsfragen zur In- 
formation der Versuchsperson tiber evtl. nicht hinreichend bekannte Sach- 
verhalte, Ablenkungs- und Pufferfrcigen zur Verdeckung der Zusammen- 
hange zwischen Fragen bzw. zur Vermeidung von Einfliissen vorangegan- 
gener auf nachfolgende Fragen (Halo-Effekte) und Fiillfragen mit dem Ziel, 
dent Fragebogen in der Wahrnehmung des Befragten eine von der tatsachli- 
chen abweichende inhaltliche Ausrichtung zu verleihen. 

Erdos (1970) halt in postalischen Befragungen sogenannte , return getters', also 
Fragen mit der alleinigen Aufgabe der Riicklaufsteigerung ftir angebracht. Fur 
schwach- oder teilstandardisierte miindliche Befragungen werden z.B. von 
Stollberger (1966) und Atteslander (1971) auBerdem , Sondierungsfragen ' (das 
sind Nachfragen bei unzureichenden ersten Antworten) und ,Rangierfragen‘ 
(Fragen, die im Falle von Abschweifungen den Befragten wieder auf das ei- 
gentliche Thema lenken sollen) als Typen taktischer Fragen angeflihrt. Weite- 
re, zum Teil kurios anmutende Arten von Funktionsfragen beschreibt Noelle 
(1963, 74, sowie 1974, z.B. sogenannte Spielfragen nach der Beurteilung von 
Frisuren, Kleidern etc. mit dem Ziel, das Interesse der Vp am Interview zu 
erhalten). 

Auch in diagnostischen Fragebogen wird von instrumentellen Fragen rnehr 
oder weniger Gebrauch gemacht (vgl. Mittenecker 1971). So enthalt etwa die 
englische Variante des MP1 von Eysenck 12 Pufferfragen, die nicht in die 
Auswertung eingehen. Von den 566 Items des MMPI sind immerhin 166 
instrumentelle, genauer ,Auskunfts-Kontroll-ltems‘, die unterschiedliche 
Kontrollstrategien verfolgen: Itemwiederholungen zur Bestimmung der Kon- 
sistenz, Liigenitems (die wahrheitsgemaB nur in ganz bestimmter Richtung 
beantwortbar sind) und Sorgfaltsitems (die von fast alien Probanden in einer 
Richtung beantwortet werden, vgl. Hathaway & Me Kinley 1963). 

Kreutz & Titscher (1974) fordern, daB Itemwiederholungen nur in so groBen 
Abstanden erfolgen, daB die Antworten stochastisch voneinander unabhangig 
sind. Sie warnen - allerdings ohne dies empirisch zu begriinden - vor den 
Folgen ftir die Motivation und das Antwortverhalten der Vpn, wenn diese die 
Wiederholung (und damit die Kontrollabsicht) bemerken. 

Dem ware entgegenzuhalten, daB die Entdeckung eingebauter Kontrollmecha- 
nismen durch die Vpn auch positive Wirkungen (groBere Sorgfalt, groBere 
Ehrlichkeit) haben kann. Nach den Ergebnissen von Hoeth & Kobler (1967) 
scheint es u.U. sogar vorteilhaft zu sein, wenn Vpn auf solche Mechanismen 
eigens hingewiesen werden (vgl. auch Ehlers 1973). 
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Ablauf-Ordnungsfragen (Filter- und Verzweigungsfragen) werden dagegen in 
diagnostischen Fragebogen nicht eingesetzt, da diese Fragebogen in der Regel 
schriftlich beantwortet werden und dadurch die Verwendung dieser Instru- 
mente mit Schwierigkeiten verbunden ware (Richter 1969). Uberlegungen zu 
individualisiertem (antwortabhangigem) Testen im Bereich der Personlich- 
keitsdiagnostik - allerdings unter Aufgabe des traditionellen Fragebogenkon- 
zeptes - sind damit natiirlich nicht ausgeschlossen. 



2.2 Frageninhalte 

Als mogliche Inhalte von Ergebnisfragen (vgl. 2.1) kommen vor allem in Be- 
tracht (Stollberger 1966, Holm 1975b): 

Fakten (z.B. Lebensalter, Besitz eines Farbfernsehgerates). 

Wissen (,Wie heiBt der Bundesfinanzminister?‘). Wahrend bei Faktenfra- 
gen das Interesse des Untersuchers sich auf das Faktum richtet, d.h. er 
etwas iiber das Faktum (Verbreitung von Farbfernsehgeraten) erfahren 
will, interessiert bei Wissensfragen letztlich nicht das Faktum (der Name 
des Politikers), sondern die Informiertheit des Befragten. 

Beurteilungen, Bewertungen, Meinungen bzw. Einstellungen (,Was halten 
Sie von Kernkraftwerken? 1 ). Soweit der Untersucher an Informationen 
iiber Sachverhalte (Kernkraftwerk) interessiert ist, spricht man von Beur- 
teilungs- oder Bewertungsfragen, steht dagegen der Befragte im Mittel- 
punkt des Interesses, von Meinungs- bzw. Einstellungsfragen (Holm 
1975 b). 

Verhalten bzw. Handlungen (.Treiben Sie regelmaBig Sport? 1 ). Dabei han- 
delt es sich nur dann um Faktenfragen, wenn nach gegenwartigem oder 
friihereni Verhalten, nicht aber wenn nach zukiinftigem oder hypotheti- 
schem Verhalten gefragt wird. 

Motive (.Warum sind Sie dieser Meinung?‘). 

Nach Cannell et al. (1977) ist davon auszugehen, daB unabhangig von der 
Fragenform Einstellungs- bzw. Motiv- im Vergleich zu Fakten- oder Wissens- 
fragen ,schwieriger‘ sind: Sie fiihren’ haufiger zu ausweichenden Antworten 
(,weiB nicht‘ o.a.), haufiger zu Riickfragen das Fragenverstandnis betreffend 
und haufiger zu qualifizierten (eingeschrankten) Antworten. 

Das bedeutet allerdings nicht, daB Fakten- oder Wissensfragen auch zu ,richti- 
geren‘ Antworten fiihren miiBten bzw. daB es einfacher sei, Wissen und Fak- 
ten durch geeignete Fragen zu erfassen (Mauldin & Marks 1950). 

Eine Grundforderung an Fragen ist die nach Eindeutigkeit in einem gegebenen 
Zusammenhang. Daraus ergibt sich, daB eine Frage sich stets nur auf einen 
bestimmten Inhalt beziehen darf. In diesem Sinne ware z.B. das Item (MMPI 
Nr. 307) .Bei einigen Spielen lehne ich es ab, mich zu beteiligen, weil ich sie 
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nicht gut kann. richtig/falsch? 1 nicht eindeutig. da hier gleichzeitig nach einem 
Faktum und nach einem Motiv gefragt wird. (Trotz dieses inhaltlichen Man- 
gels ist nicht ausgeschlossen, daB im Rahmen eines empirischen Validitatskon- 
zeptes ein solches Item sich als brauchbar erweist.) 



2.3 Direktheit einer Frage 

Neben der direkten Frage (,Wie alt sind Sie? ‘ ) zu einem bestimmten Sachver- 
halt gibt es meist mehrere Moglichkeiten zur Formulierung indirekter Fragen, 
die nach verschiedenen Gesichtspunkten eingeteilt werden konnen. Holm 
(1974a) bezeichnet als indirekte Fragen solche, die sich direkt auf einen ver- 
wandten Sachverhalt beziehen, besonders 

.Fragen durch die Hintertiir' (.Welcher Jahrgang sind Sie?‘), 

.Fragen liber Ersatzdimensionen 1 (,Wieviele Zahne fehlen Ihnen?‘). 

Stroschein (1965), der von ,unmittelbaren‘ und ,mittelbaren‘ Fragen spricht, 
fiihrt als Beispiele an: 

Assoziationsfragen, d.h. Fragen, die darauf abzielen, die mit einem be- 
stimmten Gegenstand verbundenen Vorstellungen zu ermitteln, 
Projektionsfragen, d.h. Fragen, die den Probanden veranlassen sollen, in 
eine Situation oder Person eigene Gefiihle oder Stimmungen hineinzuver- 
lagern. 

Weiterhin werden .Dialogfragen' (Stroschein 1965, ,A sagt . . .. B sagt. . . .‘) 
haufig so gestellt, daB der Befragte seine Meinung indirekt in Form eines 
Schiedsspruches (,Wer hat recht?‘) zwischen A und B zum Ausdruck bringen 
soli. Ahnliches gilt fiir sogenannte ,hypothetische Situationen‘ (.Stellen Sie 
sich bitte vor, Herr X . . .‘), die prinzipiell in eine direkte (,Wie wlirden Sie sich 
verhalten?‘) oder eine indirekte Frage (,Wie glauben Sie. daB Herr X sich 
verhalt?‘) mlinden konnen (vgl. Friedrichs 1973). In gewisser Hinsicht als 
indirekt muB man wohl auch .Fragen mit Zitaten 1 ansehen, bei denen eine 
bestimmte Meinung vom Probanden nicht unmittelbar, sondern liber den Um- 
weg der Stellungnahme zu einem Zitat erfragt wird, das der Untersucher einer 
in der Regel bekannten Personlichkeit in den Mund legt. Wie auch empirisch 
vielfach demonstriert wurde, hangt die Antwort auBer vom Inhalt des Zitates 
natiirlich stark von der Einstellung des Probanden gegeniiber der zitierten 
Personlichkeit ab (vgl. z.B. Roslow et al. 1940, Stroschein 1965). Weitere 
Beispiele indirekter Fragen finden sich u.a. bei Karmasin & Karmasin (1977) 
und bei Maccoby & Maccoby (1972). 

Indirekte Fragenformulierungen werden meist fiir sogenannte schwierige, 
heikle, unangenehme. peinliche Sachverhalte verwendet. Dazu gehoren fiir 
viele Befragte Fragen nach dem Einkommen, der Kindererziehung, der Allge- 
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meinbildung, der Sexualitat, den Familienverhaltnissen (Friedrichs 1973) und 
vor allem nach der korperlichen Sauberkeit (Scheuch 1973). Aber auch fur die 
Leserschafts-Forschung werden indirekte Techniken vorgeschlagen (vgl. z.B. 
Schyberger 1968), um Verfalschungen durch die Auflagenstarke zu vermeiden. 
Barton (1958) hat ironisierend am Beispiel der (direkten) Frage ,Haben Sie Ihre 
Frau umgebracht? 1 die verschiedenen niehr oder weniger indirekten Ansatze 
zusammengestellt: 

- die Moglichkeitsfrage (,Konnte es sein, daB . . 

- die Kartenfrage (Identifizierung der Kennung einer Karte mit der zutref- 

fenden Antwort durch die VP), 

- der Jedermann-Ansatz (.Viele haben in letzter Zeit . . . und Sie?‘), 

- der Andere-Ansatz (,Kennen Sie Leute, die . . . und Sie?‘), 

- die Urnentechnik (Antwort auf direkte Frage kommt in verschlossenem 

Umschlag in eine Urne), 

- die projektive Technik (,Welche Gedanken kommen Ihnen bei diesen Bil- 

dern . . .?“), 

- die ,Kinsey-Technik‘ (dem evtl. peinlichen Verhalten wird durch die For- 

mulierung die Eigenschaft des Selbstverstandlichen verliehen). 

Inwieweit indirekte Fragen, vor allem Projektions- und Assoziationsfragen, 
die in sie gesetzten Erwartungen erfiillen, scheint weitgehend ungekliirt zu sein 
(Stroschein 1965, Friedrichs 1973). 

Karmasin & Karmasin (1977) bemerken kritisch, daB solche Fragen fur die 
Vpn grundsatzlich mehrdeutig seien. Die Vp kann bei einer indirekten Frage 
(vgl. o. ,Wer hat recht?‘) 

ihre eigene Meinung aufiern, 

sich uberlegen, wie das .mehrheitlich 1 wohl gesehen wird, oder 

unter Zugrundelegung irgendwelcher Normen (wie es sein sollte) ent- 

scheiden. 

Die Interpretation der Antwort auf eine indirekte Frage ist demnach nur auf 
dem Hintergrund einer Theorie moglich, die den Zusammenhang zwischen 
Sachverhalt und Frage herstellt (z.B. eine Theorie der Projektion, vgl. Anger 
1969, aber auch ein empirisches Validitatskonzept). Dabei ist die Indirektheit 
einer Frage als Kontinuum anzusehen. Der Grad der Indirektheit bestimmt 
sich nach der Komplexitat der Mechanismen, die die Theorie zur Vermittlung 
zwischen Sachverhalt und Antwort annimmt (Cannell & Kahn 1968). Indirek- 
te Fragen sind demnach hochstens so brauchbar, wie es die ihnen zugrundelie- 
gende Theorie ist. 

Fur Items in diagnostischen Fragebogen hat Ellis (1947) in einer umfangrei- 
chen Untersuchung die direkte (hier personalisierte) Formulierung (,Ich . . ,‘) 
mit der indirekten (unpersonlichen, , Leute, die . . . sind . . .‘) verglichen. Dabei 
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zeigte sich firr die indirekte (unpersonliche) Form eine starkere Abhangigkeit 
von anderen Fragebogenmerkmalen (positive oder negative Formulierung) als 
fur direkte (personalisierte) Items. Vor allem aber war auch bei heiklen (sozial 
mutmaBlich unerwunschten) Sachverhalten keine Uberlegenheit der indirekten 
Formulierung nachweisbar. 



2.4 Formale Fragenkonstruktion 

Prinzipiell kann ein Fragebogenitem als Frage (,Besitzen Sie ein Farbfernseh- 
gerat? ja/nein‘) oder als Statement mit Aufforderung zur Stellungnahme (Jch 
besitze ein Farbfernsehgerat. stimmt/stimmt nicht') formuliert sein. In der 
Literatur ttber Fragebogenkonstruktion scheint ... . . der formale Unterschied 
zwischen Behauptungen (Statements) und Fragen noch gar nicht recht bewuBt 
geworden . . .“ zu sein (Kreutz & Titscher 1974, 52). Uber Auswirkungen 
dieses Unterschiedes laBt sich deshalb derzeit nur spekulieren. Kreutz & Tit- 
scher (1974) vermuten z.B., daB die in vielen diagnostischen Fragebogen be- 
obachtete Zustimmungstendenz (aquiescence) mit der ilblichen Formulierung 
der Items als Statements zusammenhangt und sich weniger ausgepragt zeigen 
wttrde, hatten diese als Fragen in starkerem MaBe den Charakter des ,Unent- 
schiedenen'. 



2.4.1 Offene und geschlossene Fragen 

Ausgehend von den Antwortmoglichkeiten auf eine Frage unterscheidet man 
offene von geschlossenen Fragen (z.B. Stollberger 1966, Friedrichs 1973, Can- 
nell et al. 1977). Eysenck (1953) spricht vom .kreativen' und vom ,selektiven‘ 
Antworttyp, und Stroschein (1965) hebt die ,inkategorialen Fragen 1 , d.h. die 
Fragen, bei denen die Auswertungsgesichtspunkte fur die Vpn nicht erkennbar 
sind, von den ,kategorialen Fragen' ab, die in irgendeiner Form (meist durch 
Antwortvorgaben) Informationen liber die Auswertungsgesichtspunkte ent- 
halten. 

Geschlossene Fragen lassen sich ,kategorie-neutral‘ (Stroschein 1965), d.h. 
ohne durch die Vorgabe der Kategorien das Antwortverhalten gravierend zu 
beeinflussen, zu einem bestimmten Themenbereich nur formulieren, wenn alle 
moglichen Antworten bereits bekannt sind. Aus diesem Grand wird man bei 
geringem Vorwissen zwangsliiufig eher zu offenen Fragen greifen (Friedrichs 
1973). Daneben ist aber auch zu bedenken, daB offene Fragen ,freie Repro- 
duktion', geschlossene Fragen nur ,Wiedererkennen‘ fordern. Schon dadurch 
sind offene Fragen schwieriger. Cannell et al. (1977) berichten von ca. 30% 
unbrauchbaren Antworten (z.B. Auslassungen und nicht fragenbezogene 
Ausfuhrungen) bei offenen im Vergleich zu nur 6% bei geschlossenen Fragen 
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zum gleichen Themenkomplex, merken allerdings selbstkritisch an, dab man 
der geschlossenen Antwort ihre Unbrauchbarkeit oft auch nur nicht ansieht. 
In die Richtung groBerer Schwierigkeit der offenen Frage deuten aber (abgese- 
hen von Plausibilitatsuberlegungen hinsichtlich erforderlicher Ausdrucksfa- 
higkeit und evtl. Schreibgewandtheit) auch Ergebnisse liber Rucklaufe bei 
postalischen Befragungen: Falthzik & Carroll (1971) erzielten bei einem aus 
nur einer Frage bestehenden Fragebogen einen Riicklauf von 78%, wenn die 
Frage geschlossen formuliert war, und von nur 27%, wenn es sich um eine 
offene Frage handelte. Einen Unterschied von immerhin noch 60% zu 50% 
berichtet Erdos (1970). Andererseits fand Richter (1969) ftir umfangreichere 
Fragebogen zwar ebenfalls eine Senkung des Riicklaufs durch eine groBe Zahl 
offener Fragen, stellt aber giinstige Auswirkungen auf den Riicklauf fest, wenn 
zu jedem Themenbereich neben geschlossenen Fragen auch eine offene Frage 
vorgesehen ist, was er auf eine ,Ventilfunktion‘ offener Fragen und auf ver- 
minderte ,Ermiidung‘ durch vereinzelte Zwischenschaltung solcher Fragen zu- 
riickfiihrt. 

Zu bedenken ist auch, daB die ,Abdeckung‘ eines Themenbereiches in der 
Regel erheblich rnehr geschlossene als offene Fragen erfordert (Cannell et al. 
1977). 

Letztlich wil'd aber entscheidend ftir die Wahl offener oder geschlossener Fra- 
gen sein, ob die Reproduktions- oder die Wiedererkennungsleistung dem un- 
tersuchten Inhalt angemessener ist. So demonstrierten z.B. Roslow et al. 
schon 1940, daB bei der Ermittlung von Kaufgewohnheiten und Verbreitungs- 
graden in offenen Fragen (freie Reproduktion) haufiger als in geschlossenen 
Fragen (Wiedererkennen) und auch haufiger als objektiv zutreffend die Pro- 
dukte mit hohen Marktanteilen genannt wurden (ahnliche Ergebnisse berichtet 
Stroschein 1965). Wie genau hier die geschlossene Frage den wahren Sachver- 
halt trifft, hangt entscheidend von der Vollstandigkeit der Vorgaben ab (Ros- 
low et al. 1940). Ungeeignet sind offene Fragen auch zur Erfassung .alltagli- 
cher' Sachverhalte (Payne 1951), die in der Regel unscheinbar. d.h. nicht als 
Figur abgehoben sind (auf eine offene Frage nach deni Tagesablauf hin werden 
viele Vpn z.B. das .Zahneputzen 1 nicht erwahnen). 

Dagegen ist die offene Frage wegen geringen Vorwissens, hoher Differenziert- 
heit bzw. Komplexitat des Sachverhaltes (Friedrichs 1973), hoher problemspe- 
zifischer V aliditat der Reproduktionsleistung oder Unangenehmheit bzw. SD- 
Empfindlichkeit des Inhalts (Sudman & Bradburn 1974, Bradburn & Sudman 
1979) in anderen Fallen durchaus angezeigt, allerdings bereitet ihre Auswer- 
tung erhebliche Schwierigkeiten. Die freien Antworten werden iiblicherweise 
nach Art einer systematischen Inhaltsanalyse (vgl. z.B. Friedrichs 1973) mit 
Hilfe eines eigens erstellten Kategoriensystems klassifiziert (grundsatzliche 
Uberlegungen speziell ftir den Fall offener Fragen finden sich z.B. bei Lazars- 
feld & Barton 1955, Vorschlage zur ,Automatisierung‘ unter Einsatz von EDV 
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berichten Friesbie & Sudman 1968). Dabei zeigt sich allerdings haufig, daB 
relativ viele Antworten (mindestens 10%) bei Zugrundelegung eines noch 
iiberschaubaren Systems nicht klassifizierbar sind und daB intraindividuelle 
Stabilitat und interindividuelle Objektivitat der Klassifizierung zu wunschen 
iibrig lassen (Stroschein 1965). AuBerdem flihren vorgegebene Antwortkate- 
gorien und Klassifikationen freier Antworten unter Zugrundelegung dieser 
,Antwortvorgaben‘ haufig zu recht unterschiedlichen Ergebnissen (Stroschein 
1965), was sich allerdings ebensogut als Argument gegen offene wie gegen 
geschlossene Fragen verwenden laBt. 

Die Unterscheidung zwischen offenen und geschlossenen bzw. inkategorialen 
und kategorialen Fragen ist entgegen dent ersten Anschein nicht streng durch- 
zufuhren (Maccoby & Maccoby 1972). Einmal ist es moglich, in der Fragen- 
formulierung nur bestimmte Antwortkategorien aufzufiihren. aber klarzuma- 
chen, daB es weitere gibt (.Flaben Sie gestern abend ferngesehen oder . . ,?‘). 
Noelle (1963) spricht dann von ,halboffenen‘ Fragen. Zum anderen kann eine 
Frage auch nur ,scheinbar inkategorial' (Stroschein 1965) sein, weil die niogli- 
chen Kategorien jedem Befragten evident sind (das gilt z.B. fur die , offene' 
Frage: ,Welche Flaarfarbe haben Sie?‘). 

1m Falle mundlicher Befragung muB schlieBlich beriicksichtigt werden, daB 
eine Frage aus der Sicht des Probanden offen sein, die Antwort vom Intervie- 
wer aber direkt klassifiziert werden kann. Gegen diese sogenannte .Feldver- 
schllisselung' (vgl. auch Noelle 1963) werden allerdings gravierende Einwande 
erhoben (Anger 1969), da sie den Interviewer haufig uberfordere und vor allem 
nicht nachprufbar sei. Andererseits werden auch bei der schriftlichen Erfas- 
sung freier Antworten durch Interviewer erhebliche ,Verluste‘ beklagt, so daB 
Quantifizierungen mit Vorsicht behandelt und Hypothesenpriifungen auf der 
Grundlage offener Fragen nicht vorgenommen werden sollten (Anger 1969). 

Da offene Fragen ini Rahmen eines miindlichen Interviews eher der alltagli- 
chen Konversation entsprechen und daher natlirlicher wirken (Maccoby & 
Maccoby 1972, Karmasin & Karmasin 1977), werden sie auch aus vorwiegend 
befragungstaktischen Grunden eingesetzt. 



2.4.2 Arten geschlossener Fragen 

Streng kategorial sind Fragen, wenn sie explizit alle Antwortmoglichkeiten 
enthalten. Bei der Formulierung ist im allgemeinen sicherzustellen, daB die 
Fragen kategorie-neutral sind, d.h. daB keine der Antwortkategorien durch 
die Formulierung begiinstigt wird. 

Neutrality im Hinblick auf die Reihenfolge der Vorgaben ist allerdings nur 
erreichbar, wenn mit verschiedenen Fassungen des Fragebogens gearbeitet und 
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dabei die Reihenfolge der Vorgaben variiert wird (Split-ballot-verfahren, gega- 
belte Befragung). 

Zur Vermeidung von Einfliissen z.B. der sozialen Erwiinschtheit kann es in 
Ausnahmefallen angezeigt sein, bewuBt und geplant von der Ausgewogenheit 
der Kategorien abzuweichen. So berichtet z.B. Stroschein (1965), daB die 
Frage .Werden Sie bestimmt mitwahlen oder werden Sie vielleicht nicht zur 
Wahl gehen?‘ zu einer sehr guten Prognose der Wahlbeteiligung filhrte, ver- 
mutlich gerade weil sie nicht kategorie-neutral ist (vgl. auch 3.1.4). 

Nach der Zahl der Antwortvorgaben lassen sich kategoriale Fragen weiter 
unterteilen in Alternativfragen und in Selektivfragen (Listenfragen, Auswahl- 
fragen, auch Katalogfragen, vgl. Anger 1969. oder Multiple-Choice-Fragen, 
vgl. Payne 1951, obschon der letztgenannte Begriff vorwiegend bei Verwen- 
dung entsprechender Fragen im Rahmen diagnostischer Fragebogen gebraucht 
zu werden scheint). Ein Spezialfall sind sogenannte Eigenschaftsworterlisten 
(adjective check lists). Dabei ist zu berlicksichtigen, ob 

die Zahl zulassiger Nennungen unbestimmt bleiben, 

die Zahl zulassiger Nennungen nach unten und/oder nach oben begrenzt 

werden oder ob 

zu jeder der aufgefiihrten Kategorien eine Einzelantwort gefordert werden 

soil. 

Problem der Alternativ-, vor allem der Listenfragen ist die Bevorzugung von 
Vorgaben in Abhangigkeit von ihren Positionen (darauf wird in 3.1.3 naher 
eingegangen). 

Selektivfragen mit vielen Vorgaben sind schwierige Fragen (nach Richter 1969 
senken sie den Rlicklauf in postalischen Befragungen) und machen im miindli- 
chen Interview Hilfsmittel (Vorlagen, Kartensatze) erforderlich. Werden sol- 
che nicht verwendet. erweisen sich umfangreiche Selektivfragen als besonders 
anfallig gegenuber Interviewereinflilssen (Cahalan et al. 1947). 

Sonderfalle selektiver Fragen sind sogenannte Skalafragen (ordinale oder im 
engeren Sinne quantitative Fragen, vgl. Flolm 1975 b), d.h. Fragen, deren 
Antwortkategorien geordnet bzw. graduell abgestuft sind. Verwendet man 
solche Fragen im Zusammenhang mit Beurteilungen, Bewertungen oder Ein- 
schatzungen, so spricht man auch von Ratingskalen. iiber diesen Ansatz 
orientieren zusammenfassend Guilford (1954) und Clauss (1968), neuere Er- 
gebnisse zur Frage der optimalen Zahl von Skalenstufen referiert Me Kelvie 
(1978), Varianten des innerhalb demoskopischer Befragungen besonders be- 
liebten graphischen Rating diskutiert Narayana (1977). ,Geeichte‘ numerisch- 
verbale Skalen fur Flaufigkeiten, Intensitaten, Wahrscheinlichkeiten und Beur- 
teilungen des Zutreffens finden sich bei Rohrmann (1978). 
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Ratingskalen werden z.B. auch zur Erfassung des Zustimmungsgrades in diag- 
nostischen Fragebogen verwendet, wobei die zweistufige Variante (ja/nein; 
richtig/falsch) wiederum als Spezialfall angesehen werden kann. Die ebenfalls 
verbreitete dreistufige Form (ja/?/nein) bietet zwar die Moglichkeit, iiber die 
Haufigkeit von ,?' - Antworten die Aktualitat der Fragen fiir den Probanden 
zu ermitteln (Heller & Kruger 1976), wirft andererseits aber wie alle mehrstu- 
figen Kategorienskalen Probleme im Hinblick auf die Dimensionality der 
Antworten auf (vgl. 1.1.3). 



2.4.3 Sonderformen 

Soweit nicht ohnehin schriftliche Befragung erfolgt, empfiehlt sich bei um- 
fangreichen Selektivfragen die Verwendung von Vorlagen. entweder als 
Einzelvorlage mit alien Kategorien oder als 
- Vorlagensatz (Kartensatz) mit je einer Vorlage fiir jede Kategorie. 

Die Verwendung von Kartensatzen hat die Vorteile der leichten Variier- 
barkeit der Reihenfolge und der offenbar groGeren Sorgfalt der Vpn bei der 
Entscheidung (Stroschein 1965). Vor allem werden Karten an spaterer Stel- 
le starker beachtet als Vorgaben auf den unteren Platzen einer Liste. 

Zur Kennzeichnung der Vorgaben kann sich die Verwendung von Symbolen 
empfehlen (a. b . . .; weiB, schwarz . . .; 1, 2 . . . etc). Dadurch lassen sich 
Ubertragungsfehler bei der Kornunikation Interviewer/Befragter vermindern. 
Vor allem aber wird der Befragte der Notwendigkeit enthoben, die Antwort 
explizit auszusprechen, was ihm bei unangenehmen Fragen peinlich sein konn- 
te. Entgegen der landlaufigen Erwartung haben sich nach Stroschein (1965) 
keine Antwortbevorzugungen durch bestimmte zur Kennzeichnung verwen- 
dete Symbole nachweisen lassen. Interviewereinfliisse auf die Antworten 
scheinen bei Verwendung von Symbolen geringer zu werden. 

Als weitere Sonderform ware das ,semantische Differential 1 (Osgood et al. 
1957) oder .Polaritatenprofil 1 , eine Zusammenstellung von meist 18 bipolaren 
, Dimensioned (adjektivischen Gegensatzpaaren. die jeweils durch eine sie- 
benstufige Skala miteinander verbunden sind), anzufiihren. Die Einschatzung 
von Begriffen in diesen 18 Polaritaten laBt sich - relativ unabhangig von den 
konkret verwendeten Eigenschaftspaaren - als Lokalisation dieser Begriffe in 
einem semantischen Raum mit den Dimensionen der Bewertung (gut/schlecht), 
der Aktivitat (aktiv/passiv) und der Intensity (stark/schwach) interpretieren 
(vgl. auch Herrmann & Stacker 1969). 

Daneben werden vor allem im Bereich der kommerziellen Markt- und Mei- 
nungsforschung zahlreiche weitere, meist als ,psychologisch' bezeichnete 
Techniken (von Farbwahltests bis zum Baumtest, vgl. Noelle 1963) unkritisch 
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und in einer Weise eingesetzt, die in erstaunlichem Kontrast zu den in anderem 
Zusammenhang (z.B. bei der Standardisierung der Fragenformulierungen und 
bei der Auswertung) erhobenen Forderungen nach Objektivitat und Nach- 
priifbarkeit steht. Die nach Anger (1969, 583) ..dringend benotigte Informa- 
tion iiber wichtige individuelle Merkmale und Eigenschaften“ laBt sich, soweit 
es sich um psychische Eigenschaften handelt, nicht mittels irgendwelcher 
,Kurzverfahren‘ durch wenig geschultes Personal (Interviewer) nebenbei be- 
schaffen. Den diesbezuglichen Ausfuhrungen und Empfehlungen von Anger 
(1969) muB mit erheblicher Skepsis begegnet werden. 



3. Fragenformulierung 

Die Formulierung von Fragen wird von den meisten Autoren als ,Kunst‘ 
betrachtet (u.v.a. Noelle 1963, Mayntz et al. 1971, Scheuch 1973), deren 
Grundlagen nicht am Schreibtisch, sondern nur in langer Erfahrung erworben 
werden konnten. DemgemaB sind auch .Regeln' fiir die Formulierung von 
Fragen, wie sie in der Literatur vielfach angefuhrt werden (z.B. Payne 1951, 
Edwards 1957, Noelle 1963, Maccoby & Maccoby 1972), soweit sie konkret 
sind, bestenfalls AusfluB solcher Erfahrungen (oder wie im Falle von Holm 
1975 b problematischer theoretischer Ansatze) und unbewiesen oder so ab- 
strakt, daB sie zwar mit hoher Wahrscheinlichkeit nicht falsch, aber dafiir auch 
wenig hilfreich sind (Kreutz & Titscher 1974). Die folgenden Ausfuhrungen 
beinhalten weniger eine (erneute) Wiedergabe solcher .Regeln' als eine Be- 
leuchtung grundsatzlicher Probleme und eine Zusammenstellung empirischer 
Befunde, die sich naturgemaB nur beschrankt verallgemeinern lassen. 

Eine Frage stellt einerseits einen verbalen Stimulus flir den Befragten, anderer- 
seits ein sprachliches Abbild eines Sachverhaltes dar (Kreutz & Titscher 1974). 
Bevor ein Sachverhalt sprachlich abgebildet werden kann, muB seine inhaltli- 
che Struktur festliegen. d.h. der sprachlichen Formulierung einer Frage geht 
logisch die Erarbeitung einer inhaltlichen Konzeption voraus. In der Praxis 
allerdings lassen sich beide Schritte nicht wie hier mehr oder weniger streng 
trennen, mitunter ist sogar schwer zu entscheiden, ob es sich bei einem kon- 
kreten Problem um ein vorwiegend inhaltliches oder vorwiegend sprachliches 
handelt (vgl. z.B. die affektiv nicht neutralen Begriffe). Im Zusammenhang 
mit der Entwicklung der inhaltlichen Fragenkonzeption ist auch die Entschei- 
dung iiber den zur Verwendung kommenden Fragentyp zu treffen. Die dabei 
zu beachtenden Gesichtspunkte sind bereits im vorstehenden Kapitel behan- 
delt worden. 

Wesentliche empirische Befunde zur Auswirkung der Fragenformulierung auf 
Antworten stammen aus der Zeit des Zweiten Weltkriegs, spiiter traten Inter- 
viewereinflusse in den Vordergrund des Interesses (Hartmann 1972). 
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3.1 Die inhaltliche Konzeption einer Frage 

1st bei der Planting einer Befragung (vgl. 1.3) die abhangige Variable (Pro- 
grammfrage im Sinne von Noelle 1 9 6 3 $efiniert worden (z.B. .Beurteilung 
der Wirtschaftspolitik der Bundesregierung durch die Bevolkerung"), so muB 
sie in einem weiteren Schritt operationalisiert, d.h. in eine oder mehrere Erhe- 
bungs- bzw. Testfragen (Noelle 1963) Ubersetzt werden. 



3.1.1 Voruberlegungen 

Zunachst ist in Abhangigkeit vom Forschungsziel bzw. von der Programmfra- 
ge festzulegen, ob eine globale oder differenzierte Vorgehensweise oder eine 
^Combination beider erfolgen soil. Payne (1951) zeigt auf, daB z.B. bei Beur- 
teilungen das aus mehreren Urteilen liber Einzelaspekte sich ergebende Bild 
oft nicht mit dem einer global erfolgten Beurteilung ubereinstimmt. Sodann ist 
zu kliiren, ob es sich um eine 
normative oder deskriptive. 

- kognitive oder evaluative, 

- allgemeine oder spezifische, 

- abstrakte oder konkrete 

Frage handeln soli (Karmasin & Karmasin 1977). Dabei sind allerdings die 
Freiheitsgrade des Untersuchers eingeschrankt, z.B. ist zu berlicksichtigen, 
daB statt einer vorgesehenen kognitiven Beurteilung bei fehlender Informa- 
tionsbasis auf Seiten der Vp leicht eine Bewertung (Evaluation) zustande kom- 
men kann (z.B. bei einer Frage liber Auswirkungen der Hochzinspolitik). 
Andererseits ist es sicher auch problematisch, die Menge der zulassigen Fra- 
genkonzeptionen von vornherein stark einzuschranken, etwa auf spezifische 
und konkrete Ansatze (z.B. im Sinne von Payne 1951, der allgemein einen 
Bezug der Frage auf das ,Wer, Wann, Warum, Wo, Wie‘ fordert, vgl. auch 
Anger 1969, Friedrichs 1973). So betonen Karmasin & Karmasin (1977), daB 
es zahlreiche Sachverhalte gebe, bei denen das .Dogma" von der konkreten und 
spezifischen Frage zu unsinnigen Konsequenzen fiihren miiBte. Bei der Unter- 
suchung von Lesegewohnheiten z.B. interessiert durchaus nicht, wie lange 
eine bestimmte Zeitung an einem bestimmten Tag gelesen wurde (spezifischer 
und konkreter Ansatz), sondern wie lange (ausfuhrlich o.a.) .in der Regel" die 
jeweilige Tageszeitung gelesen wird (allgemeiner, abstrakter Ansatz). 

Soweit von der Vp Gedachtnisinhalte abgerufen werden miissen, ist zu iiberle- 
gen. wie mit einer in der Regel identischen Frage die moglicherweise sehr 
unterschiedlichen Erfahrungen verschiedener Vpn aktualisiert werden konnen 
(Cannell & Kahn 1968) und wie eine fur die Reproduktion bzw. das Wieder- 
erkennen optimale, an .cues" reiche Situation hergestellt werden kann (Cannell 
et al. 1977, vgl. auch 1.2.3). 
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Filr Beurteilungen ist festzulegen, ob sie auf dem Hintergrund eines impliziten 
Bezugssystems der Vp erfolgen oder - soweit ein solches nur unvollkommen 
ausgebildet oder interindividuell stark unterschiedlich ist - durch verglei- 
chende Urteile vorgenommen werden sollen (vgl. Payne 1951, die , absolute' 
Beurteilung des Nahrwertes von Milch ftthrt vermutlich zu wenig brauchbaren 
Ergebnissen; es bietet sich an, Vergleiche mit anderen Nahrungsmitteln vor- 
nehmen zu lassen). 

Darnit eine Frage eindeutig ist, darf sie nur einen relevanten Gesichtspunkt 
(eine .Dimension') enthalten. Bei der Entwicklung der inhaltlichen Fragen- 
konzeption muB man also einerseits sicherstellen, da8 der gewiinschte Aspekt 
erfafit ist, gleichzeitig milssen andere Aspekte ausgeschlossen sein. Das be- 
riihmte Beispiel einer vieldimensionalen Frage von Lazarsfeld (1935): .Warum 
haben Sie dieses Buch gekauft?' (Dimensionen konnen u.a. sein: ,Sie‘ vs. 
andere Menschen, , dieses' vs. andere Bucher, ,Buch‘ vs. andere Gegenstande, 
.gekauft' vs. andere Formen des Erwerbs) ist eine von der Konzeption her 
unangemessene Frage, da zwar die interessierende Dimension enthalten ist, 
andere aber nicht ausgeschlossen wurden. Neben diesen ersten allgemeinen 
Uberlegungen zur Fragenkonzeption sind mehrere spezielle Gesichtspunkte 
zu berilcksichtigen. Sie werden in den nachfolgenden Abschnitten behandelt. 



3.1.2 Definition des Gegenstandes und Explikation eines Bezugsrahmens 

In aller Regel kann nicht davon ausgegangen werden, daB die Vpn iiber eine 
einheitliche und mit der des Untersuchers ubereinstimmende Vorstellung vom 
Befragungsgegenstand verfligen. So berichtet Noelle-Neumann (1970), daB die 
Frage nach dem Besitz bzw. der Verwendung einer .Periicke' von 1% der 
Befragten bejaht wurde, wenn gleichzeitig auch nach einern .Haarteil' gefragt 
wurde (15% Ja-Antworten). Wurde dagegen ohne weitere Unterscheidung 
nur nach einer .Periicke' gefragt, antworteten 8% der Befragten mit ,Ja‘. Dies 
laBt sich wohl nur so erklaren, daB filr einen Teil der Befragten auch Haarteile 
zu .Perlicken' gehoren, filr einen anderen Teil dagegen nicht. Es ist also erfor- 
derlich, entweder eine mdglichst exakte Definition filr den Befragungsgegen- 
stand vorzugeben oder aber - was im Sinne der Untersuchungsfragestellung 
ebenfalls interessant sein kann - die bei der Antwort zugrunde gelegte Defini- 
tion von den Vpn zu erfragen (Cannell & Kahn 1968). Entsprechendes gilt fur 
das Bezugssystem von dem ausgehend die Vpn ihre Antworten formulieren 
und das interindividuell sehr unterschiedlich sein kann (sicherlich haben Texa- 
ner und Bewohner Alaskas unterschiedliche Vorstellungen davon, was ein 
.warmer Sommer' ist, Cannell & Kahn 1968). Dabei muB das Bezugssystem - 
sofern es vorgegeben und nicht erfragt wird - ftir die Befragten relevant sein: 
Wurde man eine Hausfrau nach dem jahrlichen Eierverbrauch befragen, wiirde 
ihre Antwort reines Raten sein, der relevante Zeitraum hier z.B. ist die Woche 
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(Payne 1951). Daruber hinaus ist es u.U. erforderlich, eine Skala (Absolutwer- 
te, Prozentangaben) flir die erfragten Quantitaten zu spezifizieren und die 
erforderliche Genauigkeit festzulegen. um die iiblicherweise beobachteten 
Antworthaufungen bei runden Zahlen zu vermeiden (Payne 1951). Besonderes 
Gewicht muB bei offenen Fragen auf die Definition von Befragungsgegenstand 
und Bezugssystem gelegt werden, da diese Fragen nicht durch explizite Ant- 
wortvorgaben eine weitere Einengung und Festlegung erfahren (Anger 1969). 



3.1.3 Festlegung der Antwortkategorien 

Soil eine Frage kategorie-neutral (Stroschein 1965, vgl. auch 2.4.1) sein, d.h. 
nicht schon durch die Vorgabe der Antwortkategorien bestimmte Antworten 
beglinstigen (zu sogenannten ,verzerrten‘ Fragen - Friedrichs 1973 - und 
ihrer legitimen Verwendung vgl. 3.1.4), so miissen die Vorgaben erschopfend 
und - falls Mehrfachnennungen nicht erlaubt sind - disjunkt sein (Beispiele 
fiir Probleme bei nicht erschopfenden Vorgaben finden sich bei Payne 1951, 
87). Im Text der Frage miissen alle Vorgaben genannt werden oder es darf 
keine Vorgabe enthalten sein (Noelle-Neumann 1970). Zulassige Abweichun- 
gen von diesem Grundsatz beschreiben Kreutz & Titscher (1974). 

Ausgewogen sind Vorgaben dann, wenn sie zu gleichen Teilen und mit glei- 
cher Gewichtigkeit .positive 1 und .negative 1 AuBerungen dem jeweiligen Sach- 
verhalt gegenuber beinhalten (VerstoBe gegen diese Forderung und ihre Aus- 
wirkungen auf die Antworten beschreiben z.B. Payne 1951 und Rugg & Can- 
tril 1972). Bei der Formulierung der Antwortkategorien ist auf moglichst ver- 
gleichbare soziale Wiinschbarkeit zu achten (Phillips 1966) und zu bedenken, 
daB sich die .Attraktivitat 1 erheblich durch den Aufweis von Konsequenzen 
der Antwort beeinflussen laBt (z.B. erfahrt eine vorgeschlagene Rentenerho- 
hung erheblich weniger Zustimmung, wenn die entsprechende Antwortvorga- 
be auch die Konsequenz einer Erhohung der Beitrage zur Rentenversicherung 
deutlich macht, vgl. Karmasin & Karmasin 1977). Dies gilt verstarkt, wenn 
diese Konsequenzen personalisiert werden (,. . . wenn Sie dafttr einen hoheren 
Beitrag zur Rentenversicherung zahlen mttBten . . ." vs., . . . wenn dadurch die 
Beitrage zur Rentenversicherung steigen wttrden . . .‘), wie ilberhaupt die Per- 
sonalisierung von Fragen deutliche Veranderungen im Antwortverhalten zur 
Folge haben kann (Rugg & Cantril 1972). 

Daneben spielt aber auch die .Extremheit 1 der verwendeten Vorgaben eine 
erhebliche Rolle: Karmasin & Karmasin (1977) zeigen am Beispiel zweier 
Befragungen zur gesetzlichen Regelung des Schwangerschaftsabbruchs, wie 
durch Hinzufligung einer extremeren Antwortkategorie (vollige Freigabe) die 
Beflirwortung der Fristenlosung erheblich zunimmt. Beispiele firr Antwort- 
verzerrungen durch Gegeniiberstellung extremer und gemaBigter Antwortka- 
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tegorien beschreiben Kreutz & Titscher (1974) und Payne (1951). Besondere 
Vorsicht ist geboten, wenn extreme Kategorien in ihrer Formulierung Exi- 
stenzaussagen (,Es gibt . . . ‘) oder Allaussagen (,Alle . . ,immer . . ,nie . . .‘) 
nahekommen (Payne 1951). 

Mit der haufig beobachteten Tendenz der Befragten, extreme Antwortkatego- 
rien zu meiden (d.h. sie eher zu wahlen, wenn noch extremere vorgegeben 
sind), hangt es auch zusammen, daB nachtragliche Kombinationen von Ant- 
wortkategorien (z.B. ,sehr daflir' und ,dafiir‘) fast immer andere Ergebnisse 
liefern als Befragungen, in denen von vornherein eine zusammengefaBte Kate- 
gorie (,sehr daftir oder dafttr 1 ) vorgegeben war. Welche Ergebnisse die .richti- 
gen‘ sind. ist in der Regel natiirlich nicht entscheidbar (Payne 1951). 

Sind bei Wissensfragen die richtigen Antworten in den Vorgaben enthalten, so 
ergeben sich selbst wenn sie nur dent Interviewer fur Zwecke der Feldver- 
schliisselung vorliegen, grdBere Haufigkeiten richtiger Antworten als im Falle 
offener Fragen (Noelle-Neumann 1970). 

Da nicht davon auszugehen ist, daB jede Vp zu jeder Frage eine Antwort geben 
kann, ist es einerseits zur Vermeidung artifizieller (zufalliger) Wahl von Ant- 
worten erforderlich, Restkategorien vorzusehen, andererseits ermoglichen sol- 
che Kategorien den Vpn ein ,Ausweichen‘ (und provozieren es u.U. sogar), so 
daB in der Praxis haufig darauf verzichtet wird (Rugg & Cantril 1972, Kirsch- 
hofer-Bozenhardt & Kaplitza 1975). 

Tatsachlich miiBten zur Abdeckung aller denkbaren Falle sogar mehrere Aus- 
weichkategorien vorgesehen werden (Karmasin & Karmasin 1977): Galtung 
(1973) unterscheidet zwischen kognitiven (,weiB nicht‘) und evaluativen (,in- 
teressiert mich nicht 1 ) Nicht-Antworten, dazu miiBte man noch beriicksichti- 
gen, daB ,etwas anderes 1 oder ,mehreres‘ fur die Vp richtig sein oder sie die 
Frage nicht verstanden haben kann (.nicht verstanden 1 ). Die Hinzuftigung von 
Nicht-Antwortkategorien zu einem Satz von Antwortvorgaben ftthrt u.U. zu 
betrachtlichen Wahlhaufigkeiten ftir diese und entsprechenden Veranderungen 
ftir die anderen Kategorien, wobei nur im Einzelfall geklart werden kann, ob 
dadurch wahre Varianz (Bequemlichkeitshypothese) oder Fehlervarianz (Hy- 
pothese des Zufallscharakters erzwungener Antworten) von den inhaltlichen 
Kategorien abgezogen wird. 

Zahlreiche Untersuchungen zeigen auf, daB die Reihenfolge der Antwortalter- 
nativen im Fragentext in einer Listenvorgabe einen EinfluB auf die Wahlhau- 
figkeiten ausiibt. Dabei variieren die Angaben vor allem liber das genaue Aus- 
maB solcher .Positionseffekte 1 von Untersucher zu Untersucher betrachtlich. 
Wegen der zahlreichen Interaktionen mit inhaltlichen und formalen Aspekten 
der Fragen ist auch nicht damit zu rechnen, daB allgemein giiltige Aussagen 
moglich sind (Kreutz & Titscher 1974). Payne (1951) spricht von Tendenzen 
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dahingehend, daB bei mundlichen qualitativen Vorgaben die zuletzt genann- 
ten, bei schriftlichen qualitativen Kategorien diejenigen in Extrempositionen 
(erste und letzte Stelle) relativ inhaltsunabhangig bevorzugt werden. Bei quan- 
titativen Vorgaben gibt es relativ unabhangig von ihrer Hohe eine Neigung, 
solche in der Niihe des Mittelwertes zu wahlen. In diese Richtung gehen auch 
die Befunde von Stroschein (1964), Belson (1966) und Ring (1974). 

Zur Vermeidung systematischer Auswirkungen solcher Positionseffekte hat es 
sich eingeburgert, sogenannte gegabelte Befragungen (split-ballot, vgl. 3.4) 
durchzufiihren und dabei die Reihenfolge von Vorgaben zu variieren. Wegen 
der Benachteiligung der Mittelpositionen ist dabei ein einfaches ,Umdrehen‘ 
meist nicht ausreichend (,verfeinerte‘ Techniken beschreibt Ring 1974). Dieses 
Verfahren findet allerdings dort seine Grenzen, wo die Frage unnaturlich zu 
wirken beginnt (Payne 1951) und befiirchtet werden muB, daB dadurch zu- 
satzliche Storeinfliisse wirksam werden (z.B. , Gehen Sie heute abend nicht ins 
Theater oder gehen Sie ins Theater? 1 )- Da Positionseffekte sich dann nicht 
zeigen, wenn liber jede Vorgabe durch Einzelantwort entschieden werden 
muB (Stroschein 1965), bietet sich dieser Fragentyp fur Falle an, in denen die 
Variation der Vorgabenreihenfolge nicht moglich ist. Neben der Ausgewogen- 
heit der Kategorien hat auch die Ausgewogenheit der mit den jeweiligen Ant- 
worten verbundenen Folgefragen einen erheblichen EinfluB auf die Wahlhau- 
figkeit (Noelle-Neumann 1970). Vor allem scheinen Befragte (im mundlichen 
Interview evtl. auch Interviewer) rasch die Vermeidung bestimmter Antwor- 
ten (z.B. ,Ja‘) zu lernen, wenn diese regelmaBig mit einer hoheren Zahl von 
Folgefragen verkniipft sind (Cannell & Kahn 1968). 



3.1.4 Verzerrte Fragen 

Verzerrte Fragen sind nach Friedrichs (1973, 198) solche, ,,. . . die allein durch 
ihre Formulierung die Verteilung der Antworten in einer bestimmten Form 
beeinflussen . . .“. Solche Verzerrungen konnen einmal durch inadequate Ant- 
wortkategorien (vgl. dazu 3.1.3) entstehen, daneben gibt es weitere Faktoren. 
fur die verzerrende Wirkungen auf Antworten aufgezeigt worden sind. 

a. Unterstellungen (Implikationen) fiihren, soweit sie zu Unrecht bestehen, 
haufig nicht dazu. daB sie von den Vpn zurlickgewiesen werden, sondern 
verzerren die Antworten. Das gilt fur die unterstellte Vertrautheit mit Sach- 
verhalten und Begriffen (Payne 1951, vgl. dazu speziell 3.1.5) ebenso wie 
fUr unterstellte Voraussetzungen (.Welcher Teil Ihrer Arbeit stort Sie am 
meisten? 1 - wer sagt, daB einer stort?) und unterstellte Konsequenzen eines 
zu erfragenden Sachverhaltes (, Welcher Teil Ihrer Arbeit stort Sie am mei- 
sten, d.h. welchen schieben Sie am liingsten auf?‘). Letztere entstehen hau- 
fig versehentlich beim Versuch einer Konkretisierung des Befragungsgegen- 
standes (Payne 1951). 
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Aber auch wenn Unterstellungen nicht verzerrend wirken, sondern von 
Befragten erkannt und zurilckgewiesen werden (z.B. .Wieviele Zigaretten 
rauchen Sie pro Tag?‘), stellen sie einen befragungstechnischen Fehler dar. 
In bestimmten Fallen, z.B. um bestimmten peinlichen oder sozial uner- 
wiinschten Verhaltensweisen den Charakter des Selbstverstandlichen zu 
verleihen (vgl. Kinsey et al. 1970),konnen Unterstellungen als bewuBt ein- 
gesetztes methodisches Hilfsmittel gerechtfertigt sein. Auf die ansonsten 
erforderliche Vorschaltung einer Filterfrage wird dann zurecht verzichtet. 
Phillips (1966) erwahnt als Beispiel die Frage nach finanziellen Belastungen 
aus Ratenkaufen. Statt der tiblichen Fragenfolge ,Haben Sie regelmaBige 
Zahlungsverpflichtungen aus Ratenkaufen? 1 (= Filter), ,wenn ja: Wie hoch 
sind diese pro Monat?‘, ware es hier zweckmaBig, zur Verminderung des 
Einflusses der sozialen Erwiinschtheit mit einer Unterstellung zu arbeiten 
und zu fragen: ,Wie hoch sind Hire Zahlungsverpflichtungen aus Ratenkau- 
fen pro Monat?‘. 

b. Die Verkniipfung bestimmter Befragungsgegenstande mit Personlichkeiten, 
wichtigen Ereignissen o.a. hat - wie in verschiedenen Untersuchungen 
nachgewiesen - einen erheblichen EinfluB auf die Antworten (vgl. auch 
2.3). So berichten Roslow et al. (1940) und Rugg & Cantril (1972) liber 
Auswirkungen, die die Erwahnung des .Prasidenten' bzw. des ,Kongresses‘ 
in Fragen zu aktuellen politischen Problemen zeigten. Dabei sind diese 
Auswirkungen allerdings spezifisch, d.h. sie zeigten sich nicht durchgangig 
bei beliebigen Befragungsgegenstanden (Rugg & Cantril 1972). Mit erheb- 
lich verandertem Antwortverhalten ware z.B. auch zu rechnen, wlirde man 
eine Frage liber SicherheitsmaBnahmen von Fluggesellschaften an einer ak- 
tuellen Flugzeugentflihrung ,festmachen‘ (Karmasin & Karmasin 1977). 

c. Affektiv getonte Begriffe vermogen Antwortverteilungen deutlich zu beein- 
flussen. So berichten Rugg (1941) und Rugg & Cantril (1972) niedrigere 
Zustimmungsraten fiir .verbieten' vs. .nicht erlauben‘ (ini Zusammenhang 
mit ,offentlichen Reden gegen die demokratische Ordnung 1 ) und fiir ,den 
Krieg erklaren 1 vs. .in den Krieg eintreten' (im Zusammenhang mit deni 
Eintritt der USA in den Zweiten Weltkrieg). Besonders auffallend ist die 
Wirkung des Begriffes ,Veranderung‘: Die Frage nach einer Erganzung der 
Verfassung um eine bestimmte Vorschrift (,hinzufiigen‘) erhielt 36% Zu- 
stimmungen und 50% Ablehnungen, die nach einer (inhaltlich identischen) 
Verfassungsanderung aber nur 26% Zustimmungen und 65% Ablehnungen 
(Rugg & Cantril 1972, 106). Dieser und ahnliche Befunde veranlaBten Pay- 
ne (1951, 183) prinzipiell alle Fragen, die explizit entweder auf den .Status- 
Quo' oder auf ,Veranderungen‘ (oder auf beides) hinweisen, schon allein 
deshalb fiir verzerrt zu halten. 

Daneben kann natiirlich fast jeder Begriff in einem bestimmten gegebenen 
Befragungszusammenhaiig affektiv getont sein. Falls entsprechende Be- 
furchtungen begriindet sind, empfiehlt sich im Rahmen des Pretests eine 
entsprechende Untersuchung z.B. unter Verwendung der Methode des se- 
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mantischen Differentials oder durch Bestimmung von Assoziationen (vgl. 

Kreutz & Tischer 1974). 

d. Verzerrt kann eine Frage schlieBlich auch dadurch sein, daB sie durch ihren 

Aufbau bestimmte Antworten deutlich begiinstigt (,Lehnen Sie es ab . . 

,Sie sind doch auch der Meinung . . etc.). 

Litwak (1956) hat darauf hingewiesen, daB die Verzerrtheit einer Frage nicht 
nur von Merkmalen dieser Frage, sondern auch von ihrem Verwendungs- 
zweck abhangt: Was im Rahmen einer demoskopischen Befragung eine .uner- 
laubte 1 verzerrte Frage ware, kann innerhalb einer Einstellungsskala ein zulas- 
siges, sogar erforderliches extremes Item sein. Auch in anderen Zusammen- 
hangen konnen verzerrte Fragen (bewuBt eingesetzt und die Ergebnisse ent- 
sprechend interpretiert) zu bemerkenswerteren und giiltigeren Erkenntnissen 
fiihren, als ausgewogene Fragen dies tun wiirden (vgl. a.a.O. und Anger 1969, 
Kreutz & Titscher 1974). So ist es denkbar, daB beziiglich bestimmter Sachver- 
halte (z.B. Kernkraft) weniger die evtl. stark von Medien beeinfluBten und 
u.U. wenig stabilen Reaktionen des ,Durchschnittsblirgers‘ auf ausgewogene 
Fragen und eher die Sichtweisen eines durch verzerrte Fragen herausgefilterten 
.harten Kerns 1 von Gegnern und Befiirwortern interessieren. 

AuBerdem ist es moglich, verzerrte Fragen bzw. Fragebogen mit verzerrten 
Fragen nicht zum Zwecke der Informationsgewinnung, sondern mit dem Ziel 
der Beeinflussung im Sinne einer Einstellungsanderung einzusetzen. Uber frii- 
he derartige Versuche (Beeinflussung interventionistischer vs. isolationisti- 
scher und gewerkschaftsfreundlicher vs. gewerkschaftsfeindlicher Einstellun- 
gen) von Roper berichten Rugg & Cantril (1972). Einstellungsanderungen 
lieBen sich vor allem beziiglich solcher Sachverhalte erzielen, denen gegenuber 
die Vpn verhaltnismaBig unsicher waren. Dillehay & Jernigan (1970) konnten 
durch einen verzerrten Fragebogen zur Behandlung von Straftatern nur Ein- 
stellungsanderungen in Richtung auf mildere, nicht aber solche in Richtung 
auf hartere Bestrafung erzielen. Selbstverstandlich darf dabei die Verzerrung 
der Fragen nicht soweit gehen, daB sie von den Vpn als Beeinflussungsversuch 
erkannt wird (sonst ware durchaus auch mit Bumerangeffekten zu rechnen). 

Diese als Beispiele fiir den absichtlichen Einsatz verzerrter Fragen erwahnten 
Untersuchungen stellen erneut die BeeinfluBbarkeit des Antwortverhaltens der 
Vpn durch konstruktive Merkmale der Frage unter Beweis, machen anderer- 
seits aber auch deutlich, daB dieses Problem vor allem bei unsicheren Beurtei- 
lungsgrundlagen, Einstellungen oder Meinungen besteht und daB Merkmale 
der Fragen an Bedeutung verlieren, wenn die zu erfragenden Inhalte deutlich 
ausgepragt, stabil bzw. intensiv sind (vgl. dazu auch 3.4). 
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3.1.5 Uninformiertheit, Meinungslosigkeit und Urteilsausgewogenheit 

Die Tatsache, daB Vpn eine Frage beantworten, kann nicht als Hinweis darauf 
interpretiert werden, daB sie liber den erfragten Sachverhalt informiert sind 
oder eine Meinung dazu haben. So berichtet Payne (1951, 156) iiber Nonsen- 
se-Fragen (z.B. Beurteilung eines nicht existenten Gesetzentwurfs), die gleich- 
wohl von erheblichen Anteilen der Vpn ,beantwortet‘ wurden. Ein besonders 
eindrucksvolles Beispiel beschreibt Eysenck (1956, 156). Bei einer Umfrage in 
GroBbritannien kurz nach dem Ende des Zweiten Weltkriegs wurde die Frage 
gestellt. ob man .Konig Georg von Griechenland' wieder in sein Land zurttck- 
kehren lassen sollte. 60% der Befragten bejahten diese Frage. In einer etwa 
gleichzeitig durchgeftihrten anderen Befragung gab jedoch nur ein kleiner 
Bruchteil der Befragten an, schon einmal etwas von Konig Georg von Grie- 
chenland gehort zu haben. Offenbar neigen also Befragte dazu, ihre Uninfor- 
miertheit nicht zu offenbaren (und Fragebogenkonstrukteure geben ihnen 
haufig auch gar keine Moglichkeit, dies zu tun). Einer Frage z.B. nach der 
Beurteilung eines Sachverhaltes muB deshalb entweder eine Filterfrage nach 
der Informiertheit, eine Unterweisungsfrage (vgl. 2.1) oder eine Erklarung 
vorangehen, wobei nach Noelle-Neumann (1974) die Unterweisungsfrage 
(,. .. wissen Sie davon?‘) im Vergleich zur Erklarung der effizientere Weg ist, 
da sie eine aktive Auseinandersetzung mit der Information (eine Antwort) 
erfordert. 

In jedeni Fall ist dabei auf das Bediirfnis der Vpn, informiert zu erscheinen. 
Rucksicht zu nehmen, d.h. ein BloBstellen der uninformierten Vpn muB ver- 
mieden werden. 

Dies kann z.B. wiederum dadurch geschehen, daB in einer Filterfrage der 
Uninformiertheit der Charakter des Selbstverstandlichen verliehen wird (vgl. 
Maccoby & Maccoby 1972). Statt , Wissen Sie, welche Lander Mitglieder der 
EG sind oder wissen Sie das nicht?‘ ware eine Formulierung .Wissen Sie 
vielleicht, welche Lander Mitglieder der EG sind?’ vorzuziehen (Karmasin & 
Karmasin 1977, vgl. auch Phillips 1966). Eine Erklarung im Rahmen einer 
Frage sollte aus den selben Griinden nicht belehrend wirken (,Unter EG ver- 
steht man die Europaische Gemeinschaft . . .‘), sondern entweder die Vermu- 
tung ihrer Entbehrlichkeit zum Ausdruck bringen (,Wie Sie vermutlich wis- 
sen, ist die EG . . .‘) oder aber als Prazisierung des Befragungsgegenstandes in 
Erscheinung treten (,Was halten Sie von der Europaischen Gemeinschaft, also 
der EG?‘). 

Neben der gegebenen, aber durch inadaquate Fragenkonstruktion unerkannt 
bleibenden Uninformiertheit von Vpn ist die verbreitete Unterstellung, Be- 
fragte wurden zu ausnahmslos alien Befragungsgegenstanden eine Meinung 
haben, eine hiiufige Ursache ftir inadaquate Antworten (Kreutz & Titscher 
1974). Auch hier muB die Konstruktion der Frage es der Vp in geeigneter 
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Weise ermoglichen, das Nichtvorhandensein einer Meinung zum Ausdruck zu 
bringen (zur Vorgabe entsprechender Antwortkategorien vgl. 3.1.3). 

Empirische Belege sprechen auBerdem dafiir, daB Vpn deutlich negative Urtei- 
le iiber Befragungsgegenstande scheuen (vgl. Roslow et al. 1940, Rugg 1941, 
Phillips 1966, Kirschhofer-Bozenhardt & Kaplitza 1975), auch wenn sich das 
nicht durchgangig demonstrieren laBt (z.B. die Formulierung ,X ist besser als 
Y‘ nicht generell der logisch aquivalenten ,Y ist schlechter als X‘ vorgezogen 
wird, vgl. Adams 1956), und eher zu ausgewogenen Beurteilungen neigen. Es 
ist deshalb erforderlich, Befragte nicht ausschlieBlich zur Kritik an Befra- 
gungsgegenstanden zu zwingen, sondern Gelegenheit zur Hervorhebung posi- 
tiver Aspekte zu geben, auch wenn solche inhaltlich gar nicht interessieren 
sollten (Phillips 1966; Noelle-Neumann 1974 spricht dann von .Wegwerf- 
Fragen 1 ). 



3.1.6 Antworttendenzen und vorschnelle Antworten 

Bei Sachverhalten, bei denen eine wahrheitsgemaBe Antwort nach Meinung 
der Vp gleichzeitig eine sozial unerwunschte Antwort ware, muB durch geeig- 
nete Fragenkonstruktion der Vp z.B. die Moglichkeit gegeben werden, sich 
fill' die Antwort zu ,entschuldigen‘. Statt zu fragen .Besitzen Sie ein Auto oder 
besitzen sie ein solches nicht? 1 und damit der Vp evtl. das Eingestandnis ihrer 
,Armut‘ abzuverlangen, konnte man an folgende Konzeption denken: .Besit- 
zen Sie ein Auto oder ist das fur Sie im Augenblick nicht moglich oder wiin- 
schenswert? 1 (vgl. dazu auch Phillips 1966). 

Um response sets wie der Bejahungstendenz entgegenzuwirken und auBerdem 
die Vpn zu sorgfaltiger Beantwortung der Fragen zu veranlassen, wird meist 
empfohlen. Items teilweise positiv (,Sind Sie an Sport interessiert? 1 ), teilweise 
negativ (,Sind Sie an Sport uninteressiert? 1 ) zu formulieren. Allerdings ist eine 
solche Vorgehens weise nicht unproblematisch. Zum einen ergibt sich durch 
die Antwort ,Nein‘ auf ein negativ formuliertes Item die Situation der doppel- 
ten Verneinung, die stets als Fehlerquelle anzusehen ist (vgl. 3.2.2). Zum 
andern haben Terborg & Peters (1974) gezeigt, daB die Veranderung der For- 
mulierungsrichtung fur viele Items signifikante Auswirkungen auf die Haufig- 
keit der Wahl von Antworten hat, d.h. die Antwort ,Ja‘ auf ein positiv forniu- 
liertes Item nur logisch Equivalent der Antwort ,Nein‘ auf ein negativ forniu- 
liertes (und umgekehrt) ist. Diese Beantwortungsunterschiede konnten zudem 
nicht ausschlieBlich der unterschiedlichen Wirksamkeit von Antworttenden- 
zen (‘Ja-Tendenz oder Nein-Tendenz) angelastet werden, da je nach Item Ja- 
Antworten bei positiver Formulierung haufiger, z.T. aber auch seltener auf- 
traten als Nein-Antworten bei negativer Formulierung (und umgekehrt). Kar- 
masin & Karmasin (1977) schlagen deshalb vor, auf Ja-Nein-Fragen moglichst 
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zu verzichten und stattdessen die Alternatively explizit zu formulieren, wobei 
deren Reihenfolge im Rahmen einer gegabelten Befragung (vgl. 3.4) variiert 
werden kann (die o.a. Frage wiirde dann lauten: ,Interessieren Sie sich ftir 
Sport oder sind Sie an Sport uninteressiert?'). Prinzipiell ahnliche Uberlegun- 
gen fur den Fall von Personlichkeitsfragebogen finden sich bei Ehlers (1973) 
und Keil (1973). 

Einer zweiten Tendenz im Beantwortungsverhalten sollte ebenfalls schon 
durch die Konstruktion der Frage entgegengewirkt werden: der Neigung zu 
impliziter oder expliziter Formulierung der Antwort, bevor die gesamte Frage 
von der Vp zur Kenntnis genommen wurde (Tendenz zu vorschneller Ant- 
wort). Das kann z.B. dadurch erfolgen, daB die eigentliche Frage erst ganz 
zum SchluB, d.h. nach der genauen Definition des Gegenstandes, der Explika- 
tion des Bezugsrahmens etc. verbalisiert wil'd (Payne 1951). Dem zugegebe- 
nermaBen konstruierten Aufbau einer Frage 

- .Wiirden Sie sagen, der Preis fiir Benzin ist zu hoch (*), gerade richtig oder 
zu niedrig (*), wenn Sie ihn mit Preisen anderer Dinge vergleichen?\ 
der mindestens an den mit (*) bezeichneten Stellen vorschnelle Antworten 
ermoglicht, ware ein Aufbau wie etwa der folgende vorzuziehen: 

,Verglichen mit den Preisen anderer Dinge: Wiirden Sie sagen, der Preis fiir 
Benzin ist zu hoch, gerade richtig oder zu niedrig? 1 . 



3.2 Sprachliche Formulierung der Frage 

3.2.1 Kriterien fiir die sprachliche Formulierung 

Die sprachliche Formulierung einer Frage erfolgt einerseits mit dem Ziel, den 
Befragten zu einer Antwort zu motivieren, andererseits muB sie erreichen, daB 
die Frage von der Vp richtig verstanden wird (Anger 1969). Ubereinstimmend 
wird die sprachliche Formulierung einer Frage als ein Problem der Optimie- 
rung unter dem Kriterium der Bedeutungsaquivalenz fiir alle Befragten angese- 
hen. Da die Bedeutung eines Begriffes auBer von seiner Denotation (definier- 
tem Inhalt) und den interindividuell unterschiedlichen Konnotationen (dem 
Bedeutungshof, der den Ort in einem semantischen Raum bestimmt, vgl. 
Osgood et al. 1957) auch noch von gruppenspezifischen Bedeutungsanteilen 
(Altersgruppen, Schichten, regionalen Gruppierungen; Karmasin & Karmasin 
1977) und der Verwendung in unterschiedlichen Lebensbereichen (Arbeits- 
welt, Privatleben etc.; vgl. Scheuch 1973) gepragt wird, ist es grundsatzlich 
ausgeschlossen, das absolute Optimum der Bedeutungsaquivalenz (inhaltliche 
Standardisierung) durch identische sprachliche Formulierung fiir alle Vpn (for- 
male Standardisierung im Sinne von Stroschein 1965) zu erreichen. Vielmehr 
wiirde dazu eine fiir jede Vp unterschiedliche sprachliche Formulierung erfor- 
derlich sein. Ausgehend von der Erfahrung, daB in der alltaglichen Kommuni- 
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kation wechselseitiges Verstehen mehr oder weniger moglich ist, wird im 
freien miindlichen Interview die Aufgabe, eine inhaltliche Standardisierung in 
dem genannten Sinne zu erreichen, der Intuition des Interviewers iibertragen. 
Der dagegen erhobene Einwand, daB hierbei (von einzelnen hochqualifizierten 
und ,begabten‘ Interviewern vielleicht abgesehen) zu der Storvariable ,Ver- 
standnisunterschiede durch die Vpn‘ nur noch weitere hinzugefiigt wtirden 
(wie etwa die Ausdrucksfahigkeit des Interviewers und seine Vorstellung von 
dem, was die Vp wie zu verstehen habe: Wottawa 1980), laBt sich jedoch kaum 
entkraften. 

Nach dem Prinzip der ..maximalen Ubelminimierung“ (Wottawa 1980, 209) 
werden bei der formalen Standardisierung (Identitat der Fragen auf verbaler 
Ebene) die interindividuellen sprachlichen Unterschiede vernachlassigt. Ziel 
bleibt auch hier die Bedeutungsiiquivalenz, nur liegt diesem Vorgehen die 
Annahme zugrunde, daB diese durch identische sprachliche Formulierungen 
besser als durch unkontrollierte freie Formulierungen zu erreichen sei (Mayntz 
et al. 1971, Wottawa 1980). Dies wird in der Regel auch fur Instruktionen im 
Rahmen von Leistungstests oder von psychologischen Experimenten ange- 
nommen. Da es andererseits offensichtlich unsinnig ist, eine Frage beantwor- 
ten zu lassen, die nicht verstanden wurde, ergibt sich fast zwangslaufig die 
Forderung, sich bei der sprachlichen Formulierung an der untersten Grenze 
der Zielgruppe zu orientieren (Payne 1951). Allerdings genligen solche For- 
mulierungen mindestens flir sprachlich differenziertere Vpn nicht mehr dem 
Kriterium der Motivierung von Antworten (Erdos 1970), da durch Ubersim- 
plifizierungen Zweifel an der Seriositat der Befragung ausgelost werden kon- 
nen (Kreutz & Titscher 1974). Deshalb wird als KompromiB heute eher eine 
Orientierung an der Alltagssprache (Umgangssprache) des durchschnittlichen 
Mitgliedes der Zielpopulation vorgeschlagen (Karmasin & Karmasin 1977). 

Teilweise wird versucht, gruppenspezifische Bedeutungsunterschiede durch 
unterschiedliche sprachliche Formulierungen zu beriicksichtigen. Dies gilt vor 
allem fur regionale Unterschiede. Noelle-Neumann (1963, 1974) etwa schlagt 
vor, den Interviewer durch eine sogenannte informelle Ermittlung (eine Frage 
ohne festgelegten Wortlaut, z.B. nach der Gebrauchlichkeit der Bezeichnun- 
gen ,Samstag‘ oder ,Sonnabend‘) die Zugehorigkeit des Befragten zu einem 
bestimmten Sprachraum feststellen zu lassen und in Abhangigkeit davon zu 
verschieden formulierten Fragen zu verzweigen. Im iibrigen muB aber in der 
Regel (mit Karmasin & Karmasin 1977, 176) festgestellt werden: „. . . ilber die 
Bedeutungsverschiebungen von einzelnen Begriffen bzw. ilber die jeweils rele- 
vanten wortlichen Bezeichnungen von Sachverhalten in den iiblichen Sprach- 
repertoires von Jugendlichen gegenilber Erwachsenen, Mannern gegenilber 
Frauen, Unterschicht gegenilber Oberschicht ist jedoch im Augenblick aus 
dem deutschen Sprachraum noch zu wenig bekannt, so daB auch hier nur der 
Ausweg bleibt, wortliche Aquivalenz zu wahren und bei alien Begriffen und 
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Formulierungen, bei denen wechselnde Bezugsrahmen vermutet werden kon- 
nen, den Bezugsrahmen mit anzugeben, unter dem der Forscher den Begriff 
einzuordnen wunscht“ (vgl. auch Canned & Kahn 1968). Mangels gesicherten 
Wissens liber sprachliche Unterschiede ist haufig nicht ohne weiteres zu ent- 
scheiden, ob Beantwortungsunterschiede z.B. zwischen Angehorigen ver- 
schiedener Schichten auf unterschiedliches Fragenverstandnis oder auf Unter- 
schiede des erfragten Sachverhaltes zurlickgehen (Kreutz & Titscher 1974). 
Mindestens empfiehlt es sich in solchen Fallen, einen Sachverhalt durch meh- 
rere Fragen unterschiedlicher Formulierung zu erfassen bzw. Verstandnis- 
Kontrollfragen einzubauen. 



3.2.2 Anforderungen an die sprachliche Formulierung 

Wegen der starken Kontextabhangigkeit und der Vielfalt der Interaktionen mit 
inhaltlichen Aspekten scheint es von vornherein verfehlt. nach besonders ge- 
eigneten Standardformulierungen zu suchen (Raab 1974). Stattdessen wird 
man die Argumente fiir oder gegen bestimmte Vorgehensweisen im Einzelfall 
gegeneinander abwagen mtissen. Folgt man dem Prinzip. sich bei der sprachli- 
chen Formulierung an der Umgangssprache des Durchschnitts der Zielpopula- 
tion zu orientieren (Karmasin & Karmasin 1977, vgl. auch 3.2.1), so muB man 
sich zunachst die hauptsachlichen Kennzeichen dieser Sprache vergegenwarti- 
gen (eine entsprechende Zusammenstellung unter Beriicksichtigung der Ergeb- 
nisse von Lesbarkeitsuntersuchungen findet sich - allerdings fiir den anglo- 
amerikanischen Sprachbereich - z.B. bei Wright & Barnard 1975). 

Dazu gehort - mindestens im Falle von Wohnbevolkerungen als Zielgruppen 
- die Verwendung kurzer Worter. Payne (1951) berichtet. daB Fragen, die 
unter dem Kriterium geringer BeeinfluBbarkeit der Antworthaufigkeiten 
durch Variation der Vorgabenreihenfolge als ,klar‘ klassifiziert worden waren, 
zu ca. 8%, ,unklare‘ Fragen dagegen zu 12,5% zwei- oder mehrsilbige Worter 
enthielten. Bei klaren Fragen waren 30%, bei unklaren 40% aller Silben Vor- 
oder Nachsilben. Sodann ist fiir die Alltagssprache der Gebrauch solcher Wor- 
ter charakteristisch, die in der Sprache haufig vorkommen. Dementsprechend 
schlieBt sich auch Friedrichs (1973) im Zusammenhang mit der Fragenformu- 
lierung der Empfehlung einer Beschrankung auf die 1000 gebrauchlichsten 
Worter (mit Vorbehalten) an. Das Kriterium der Worthiiufigkeiten ist indessen 
recht oberflachlich, da eigentlich relevanter die Gebrauchlichkeit des Wortes 
in einem gegebenen Zusammenhang ist. Fremdworter und Abstrakta jedenfalls 
sollten soweit als moglich vermieden werden. 

Weniger eine Frage der Orientierung an der Alltagssprache als eine Notwen- 
digkeit im Hinblick auf die Approximation der Bedeutungsaquivalenz fiir alle 
Befragten ist die Notwendigkeit einer Beschrankung auf klare Begriffe, das 
sind solche, deren denotative Bedeutungen pragnant und die arm an konno- 
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tativen Bedeutungen sind (Rohrmann 1978), was gegebenenfalls durch Analy- 
sen z.B. unter Verwendung des semantischen Differentials nachzupriifen ware 
(Friedrichs 1973). Im Interesse dieser Klarheit empfiehlt es sich auch nicht, 
Synonyme im Wechsel zu verwenden (Anger 1969). 

Zwar herrschen in der Alltagssprache personalisierte Formulierungen vor 
(Karmasin & Karmasin 1977), doch muB hier die Entscheidung in Abhangig- 
keit von der Fragestellung erfolgen, da mit spezifischen Einfliissen der Perso- 
nalisierung einer Frage auf die Antworten zu rechnen ist (vgl. 3.1.3 und 3.3). 

Die grammatikalische Satzkonstruktion der Alltagssprache ist durch geringe 
,Satztiefe‘ (geringen Komplexitatsgrad der syntaktischen Struktur, vgl. Kar- 
masin & Karmasin 1977) ausgezeichnet. Ob man deshalb mit Kreutz & Tit- 
scher (1974) flir Fragen eine Beschrankung auf Hauptsatze fordern muB, ist 
zweifelhaft. Immerhin sollten 
ungewohnliche Tempora, 

- komplizierte Nebensatzkonstruktionen (Schachtelsatze), 
adverbiale Konstruktionen und 
passivische Formulierungen 

moglichst vermieden werden (Wright & Barnard 1975, Karmasin & Karmasin 
1977). Dasselbe gilt ftir doppelte Verneinungen, die entweder im Fragentext 
selbst liegen (,Sind Sie dagegen, daB der 17. Juni als Feiertag abgeschafft wird 
oder sind Sie nicht dagegen? 1 ) oder durch eine verneinende Antwort auf eine 
negativ formulierte Frage entstehen konnen (,Soll der 17. Juni in Zukunft kein 
Feiertag rnehr sein? ja/nein', vgl. auch 3.1.6). In vielen Fallen geniigt es aller- 
dings nicht, eine grammatikalisch richtige Fragenkonstruktion zu verwenden, 
zusatzlich muB auch sichergestellt sein, daB der Bezug der Antwort auf die 
Frage unmittelbar evident ist. So ist nach Payne (1951, 69) bei einer Frage des 
Typs ,1st Ihr Gesundheitszustand heute besser oder schlechter als vor einem 
Jahr?' trotz grammatikalischer Eindeutigkeit vielen Vpn nicht klar, ob sich die 
Antwort , besser" auf , heute" oder auf das vergangene Jahr bezieht. In solchen 
Fallen ist es unabdingbar, daB die Alternativen explizit formuliert werden (,1st 
Ihr Gesundheitszustand heute besser oder war er vor einem Jahr besser?"). 

Vielfach findet sich in der Literatur die Empfehlung, Fragen moglichst kurz zu 
fassen (z.B. Holm 1974b, Kreutz & Titscher 1974, Wright & Barnard 1975, 
Karmasin & Karmasin 1977). Oppenheim (1966) empfiehlt 20 Worter als 
Obergrenze, Payne (1951) berichtet fiir die nach seinem Kriterium ,klaren" 
Fragen (S.O.) eine durchschnittliche Lange von 22, flir .unklare" eine von 
31 Wortern. Schneider-Diiker & Schneider (1977) fanden bei ihren Versuchen 
zur freien Reproduktion von Fragebogenitems Korrelationen von 0,54 bzw. 
0,71 zwischen Anzahl von Intrusionen (Umformungen bzw. Einfugungen von 
Wortern) und Itemlange (Wortanzahl bzw. Silbenanzahl). 
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Flir offene Fragen und Listenfragen mit Mehrfachnennungen in mundlichen 
standardisierten Interviews widersprechen Cannell et al. (1977) der Forderung 
nach moglichst kurzen Items. Sie stellen der dieser Forderung zugrundeliegen- 
den Hypothese von der ,Verwirrung‘ der Vp durch eine lange Frage eine 
Hypothese der ,Vorbildwirkung‘ des Interviewers gegeniiber und vermuten, 
daB die Vp ihr Engagement und ihre Ausflihrlichkeit bei der Beantwortung an 
den cues orientiert, die sie aus dem Verhalten des Interviewers entnimmt. 
Beim Vergleich der Antworten auf Items in Kurzform (durchschnittlich 14 
Worter) und Langform (= Kurzform + Redundanz, durchschnittlich 38 Wor- 
ter) zeigte sich zwar kein Unterschied in den Antwortlangen, dafiir enthielten 
freie Antworten und Antworten in Listenfragen im Falle der Langform mehr 
Information. AuBerdem waren auch die Antworten auf kurze Fragen informa- 
tionshaltiger, wenn der Fragebogen teils kurze, teils lange Fragen enthielt. 
Soweit es in den Fragen um Reproduktion von Gedachtnisinhalten geht, ist 
auch zu bedenken, daB eine lange Frage der Vp mehr Zeit laBt und u.U. 
relevante cues mehrfach wiederholt darbietet (Cannell et al. 1977). Allerdings 
wirkt sich die Fragenlange moglicherweise nicht auf alle Vpn gleichmaBig aus. 
Koomen & Dijkstra (1975) z.B. fanden (anders als Cannell et al. 1977) einen 
Anstieg der Antwortlangen in Abhangigkeit von der Lange der Fragen, aller- 
dings nur fill' solche Vpn, die bei kurzen Fragen zu ausgesprochen kurzen 
Antworten neigten (vgl. auch Sudman & Bradburn 1974). 

Auch zur Fragenlange lassen sich keine unbeschrankt giiltigen Aussagen ma- 
chen. Sie ist unter Berlicksichtigung von Frageninhalt, Untersuchungsziel und 
Verstandlichkeit im Einzelfall zu optimieren. 

3.3 Spezielle Gesichtspunkte der Formulierung von Items 
fur diagnostische Fragebogen 

Fill' diagnostische Fragebogen, die auf der Grundlage eines streng empirischen 
Validitatskonzeptes erstellt wurden, ist die Kriteriumskorrelation der Prilf- 
stein filr die adaquate Formulierung eines Items. Theoretisch ist es hier sogar 
zulassig, vollkommen unverstandliche Items zu konstruieren, solange nur die 
,Art des Unverstandnisses ‘ (z.B. der dann die Antwort determinierende re- 
sponse set, vgl. 1.2.1 und 1.2.2) giiltige Vorhersagen ermoglicht. 

Wil'd von inhaltlichen Uberlegungen ausgegangen, so muB sich letztlich in 
Itemanalysen (entweder im Rahmen eines klassischen oder eines probabilisti- 
schen MeBmodelles) die inhaltliche und formale Brauchbarkeit der Items er- 
weisen. Die Wahrscheinlichkeit dafiir, daB dies gelingt, dilrfte bei Beriicksich- 
tigung der in diesem Kapitel aufgezeigten Zusammenhange erhoht sein. 

Im Hinblick auf die Motivation der Probanden miissen mehr noch als bei 
demoskopischen Fragebogen Uberlegungen zur face-validity der Items ange- 
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stellt werden. Auch bei den demoskopischen Fragebogen spielt dieser Aspekt 
eine Rolle: Nicht jedem Untersucher wird von den Befragten jede Frage ,zuge- 
standen‘ (vgl. Richter 1969). Fiir rein empirische Fragebogenkonstruktionen 
ist face-validity im Interesse der Undurchschaubarkeit der Items geradezu 
unerwtinscht und oft auch tatsachlich nicht gegeben, was solche Verfahren bei 
Betroffenen und in der Offentlichkeit haufig in MiBkredit bringt. Empfehlun- 
gen f Ur die Formulierung von Items in diagnostischen Fragebogen und von 
Aufgaben in Leistungstests finden sich in der entsprechenden Literatur, z.B. 
bei Lienert (1969, 62ff) und Wottawa (1980, 212ff). 

3.4 Die Kontrolle von Formulierungseinfliissen 

Wahrend im Zusammenhang mit Einstellungsskalen (vgl. z.B. Suchman & 
Guttman 1947) und diagnostischen Verfahren (z.B. soweit sie auf der Basis 
eines probabilistischen MeBmodelles, vgl. Fischer 1974, Wottawa 1980, kon- 
struiert sind) auch grundlegend andere Strategien verfolgt werden, versucht 
man im Fall demoskopischer Fragebogen die vielfaltigen Einfliisse der Fragen- 
formulierung auf Antworten durch .Mittelungsprozeduren 1 zu eliminieren. 
Schon in den 30er Jahren (vgl. z.B. Roslow et al. 1940, Rugg 1941) wurde 
darnit begonnen, innerhalb einer Befragung unterschiedliche Fragenformulie- 
rungen zu verwenden (gegabelte Befragung, split-ballot-verfahren) und als 
Ergebnis einen Mittelwert aus den in der Regel differierenden Antworten zu 
verwenden. Heute ist diese Vorgehensweise weithin ttblich (vgl. z.B. Payne 
1951, Stroschein 1965, Noelle-Neumann 1963, 1970, Rugg & Cantril 1972). 
Karmasin & Karmasin (1977) referieren eine Untersuchung, in der mit 12 
verschiedenen Varianten des Fragebogens (variierten Reihenfolgen von Ant- 
wortkategorien) gearbeitet worden ist. Zweifel am Sinn dieses Verfahrens au- 
Bert allerdings bereits Noelle-Neumann (1970). Es fragt sich, was ein auf diese 
Weise zustandegekommenes ,mittleres‘ Ergebnis eigentlich bedeutet. Es ware 
sinnvoll nur interpretierbar, handelte es sich bei den Formulierungseffekten 
um ,Zufallsfehler‘ mit einem Erwartungswert von Null, tatsachlich aber mufi 
angenommen werden, daB mit unterschiedlich formulierten Fragen Unter- 
schiedliches gemessen wird (Raab 1974), sonst durften die Antwortunterschie- 
de in Abhangigkeit von der Formulierung nicht (wie in diesem Kapitel oft 
berichtet) signifikant bzw. konsistent und stabil sein. 

In mehreren Untersuchungen ist aufgezeigt worden, daB Antwortunterschiede 
in Abhangigkeit von der Fragenformulierung vor allem auftreten, wenn die 
Vpn von einem Sachverhalt nicht betroffen, an ihm nicht interessiert oder liber 
ihn nicht informiert sind (vgl. vor allem Payne 1951, Noelle-Neumann 1970, 
Rugg & Cantril 1972). Sicherlich ist es in solchen Fallen unsinnig, aus Antwor- 
ten, die weitestgehend methodenbedingt sind, einen Inhalt herausmitteln zu 
wollen. Angemessener ware es wohl zu folgern, daB es fast ausschlieBlich von 
der Formulierung der Frage abhangt, was die Vpn antworten. 
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Ausgehend von den Uberlegungen von Campbell & Fiske (1959) sollte man 
gewissermaBen im Rahmen eines ,Multi-Content-Multi-Question-Ansatzes’ 
fiir Fragen konvergente und diskriminante Validitat fordern und Antworten 
erst dann interpretieren, wenn diese Forderungen erflillt sind. Konkret wlirde 
das bedeuten, daB unterschiedlich formulierte Fragen zu einem bestimmten 
Inhalt zu ahnlichen Antworten ftthren miissen (Methodenkonvergenz), min- 
destens aber zu ahnlicheren Antworten als vergleichbar formulierte Fragen zu 
verschiedenen Inhalten (diskriminante Validitat). Halt man sich vor Augen. 
daB allein durch Formulierungsahnlichkeit etwa auf deni Wege iiber die Wir- 
kung von response sets hohe Korrelationen zwischen Antworten auf verschie- 
dene Fragen zustandekommen und sich z.B. in einer Faktorenanalyse als ,For- 
mulierungsfaktor‘ niederschlagen konnen (Holm 1974a, b), wird man auch 
diskriminante Validitat nicht mehr einfach unterstellen konnen, wie das heute 
noch vielfach geschieht. 



4. Reihenfolge der Fragen und Umfang des Fragebogens 

In starkerem MaBe noch als das bei der Formulierung von Fragen der Fall ist, 
stiitzt sich der Fragebogenaufbau iiblicherweise auf Vermutungen und unsy- 
stematische Erfahrungen von Praktikern (Bradburn & Mason 1964). Die rela- 
tiv wenigen empirischen Untersuchungen iiber Auswirkungen der Fragenrei- 
henfolge und des Fragebogenumfangs konnen nur begrenzte Giiltigkeit bean- 
spruchen, so daB die Feststellung von Kreutz & Titscher (1974. 40), derzufol- 
ge iiber den Aufbau des Fragebogens sehr wenig gesichertes Wissen vor- 
handen ist“, auch heute noch zutreffen dlirfte. 

4.1 Ziele beim Aufbau eines Fragebogens 

Aus prinzipiell den gleichen Griinden, wie sie flir die Festlegung von Fragen- 
formulierungen angefiihrt wurden (vgl. 3.1.1), scheint in vielen Fallen auch die 
Standardisierung der Fragenfolge der mit dem geringeren Risiko fiir Verzer- 
rungen behaftete Weg zu sein. Allerdings schlieBt dieser Weg naturgemaB die 
im freien miindlichen Interview gegebene Moglichkeit der Anpassung der Fra- 
genfolge an die Erfordernisse der jeweiligen Befragungssituation durch den 
Interviewer aus. Damit sind prinzipiell Gefahren fiir die Motivation des Be- 
fragten verbunden, z.B. wenn ihm eine an friiherer Stelle unaufgefordert be- 
reits beantwortete Frage entsprechend ihrer Position im Fragebogen spater 
erneut gestellt wird (Noelle 1963). Um diese und ahnliche Schwierigkeiten 
moglichst zu vermeiden, formulieren Karmasin & Karmasin (1977, 197) als 
Leitlinie fiir den Aufbau eines Fragebogens, diesen „. . . so zu gestalten, daB fiir 
den Befragten der Charakter eines Gesprachs, einer Konversation simuliert 
wird“. Ahnlich auBern sich auch Kirschhofer-Bozenhardt & Kaplitza (1975). 
Praktisch bedeutet dies u.a., daB Fragen, die zusammenhangen, auch im Zu- 
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sammenhang zu stellen sind, zumal auf seiten der Vpn ein ausgepragtes Be- 
durfnis zu bestehen scheint, Zusammenhange zwischen Fragen bzw. Fragen- 
inhalten herzustellen (Karmasin & Karmasin 1977). Die Forderung nach 
Gruppierung des Zusammengehorigen kollidiert moglicherweise mit der den 
gebrauchlichen MeBmodellen zugrundeliegenden Annahme stochastischer 
Unabhangigkeit der Antworten auf verschiedene Fragen (Wottawa 1980), d.h. 
alle Arten von Reihenfolgeeffekten (seien sie unbeabsichtigt oder, wie bei 
Fragen, die auf einen bestimmten Sachverhalt hinfuhren sollen, bewuBt einge- 
setzt), stellen einen VerstoB gegen Grundannahmen der MeBmodelle (Unkor- 
reliertheit von Zufallsfehlern bzw. Abhangigkeit der Antworten nur von Item- 
und Personenparametern) dar. Aus diesem Grund ist - neben der ,Natiirlich- 
keit 1 des Gesprachsverlaufs - die Ausschaltung von Reihenfolgeeffekten (d.h. 
von Einfliissen auf die Antworten, die sich allein aus der Reihenfolge der 
Fragen ergeben) ein mit dem erstgenannten nur rnehr oder weniger zu verein- 
barendes Ziel des Fragebogenaufbaus. 

Noelle-Neumann (1974) fiihrt daneben die Motivierung der Befragten (d.h. 
das Bemiihen, Interesse flir die Befragung bzw. die Frageninhalte zu wecken) 
und die .Optimierung der Auskunftsfahigkeit" (d.h. die Steigerung bzw. Auf- 
rechterhaltung der Aufmerksamkeit liber den Befragungsverlauf) als wichtige 
Ziele an, die bei der Festlegung der Reihenfolge von Fragen im Auge zu 
behalten sind. Die Orientierung am naturlichen Verlauf eines Gesprachs kann 
in dieser Richtung wirken, ist mit diesen Zielen jedoch nicht identisch. Im 
Interesse der Verminderung interindividueller Beantwortungsunterschiede 
(Fehlervarianz im Falle der demoskopischen Befragung) und der Interpretier- 
barkeit von Subgruppenergebnissen miissen auBerdem eine .Vergleichbarkeit 
des Befragungsablaufs‘ (z.B. im Falle von Verzweigungen) flir alle Vpn ange- 
strebt und bei der Festlegung der Fragenfolge auch die spatere Auswertbarkeit 
(Belange der Datenerfassung) im Auge behalten werden (Noelle-Neumann 
1974). 

Kontrovers behandelt wird die Frage, ob dem , naturlichen 1 bzw. ,logischen‘ 
Aufbau des Fragebogens (der Fragenfolge) ein Wert an sich beizumessen (bzw. 
er infolge Strukturierungsbedilrfnisses auf seiten der Vpn unvermeidbar) sei 
(z.B. Phillips 1966, Cannell et al. 1977, Karmasin & Karmasin 1977) oder ob 
ein ,logischer‘ Fragebogenaufbau allenfalls ein denkbares Mittel unter vielen 
auf dem Weg zur Motivierung von Vpn, Verbesserung ihrer Auskunftsfahig- 
keit, Vermeidung von Reihenfolgeeffekten und Sicherstellung der Vergleich- 
barkeit des Befragungsablaufes darstelle (Stroschein 1965, Noelle-Neumann 
1974). Entsprechend unterscheiden sich die Autoren auch darin. welchen Stel- 
lenwert sie dem ,Themenwechsel‘ im Aufbau eines Fragebogens einraumen. 

Bei der Abfolge von Fragen muB grundsatzlich unterschieden werden zwi- 
schen der Abfolge von Frageninhalten (,Themendisposition‘ im Sinne von 
Stroschein 1965) und von Fragentypen (,Fragendisposition‘, vgl. Stroschein 
1965). 
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4.2 Motivation der Befragten und Steigerung der 
Antwortfahigkeit 



Einerseits konnen sich durch Veranderungen der Motivation der Befragten im 
Verlaufe des Interviews Einfllisse auf Antworten in Abhangigkeit von der 
Position der Frage ergeben (vgl. 4.3.2, 4.4 und 4.5), insofern stellt die Motiva- 
tion der Befragten eine mogliche Ursache beobachtbarer Reihenfolgeeffekte 
dar (Anger 1969). Andererseits ist die Gestaltung der Fragenfolge aber ein 
Mittel, angemessene Motivation der Befragten zu erreichen bzw. zu erhalten 
(vgl. besonders Perreault 1975). Hierzu schlagt Noelle-Neumann (1974, vgl. 
auch Noelle 1963) vor, besonderes Augenmerk den einleitenden Fragen zu 
schenken und diese (notfalls als ,Wegwerf-Fragen‘) zu Kontakt- bzw. ,Eisbre- 
cher'-Fragen zu machen, die insbesondere miBtrauischen und unsicheren Vpn 
(z.B. alteren Menschen, Angehorigen der Unterschicht, Hausfrauen) .Sicher- 
heit‘ vermitteln sollen. Als geeignete Themen gelten z.B. die erwartete Ent- 
wicklung der Preise, der EinfluB des Wetters auf die Befindlichkeit u.a., wobei 
die Fragen zwar leicht zu beantworten und nicht kontrovers (Goode & Hatt 
1972), andererseits aber auch nicht banal sein sollten. Um die Vpn ..ins Ge- 
sprach zu ziehen“ (Noelle-Neumann 1974, 244), empfiehlt sich evtl. eine offe- 
ne Frage. 

Wahrend des Interviews sollen sowohl Motivation (Antwortbereitschaft) als 
auch Antwortfahigkeit (die sich vermutlich nicht streng trennen lassen) durch 
Wechsel der Themen, Wechsel der Inhalte (Wissen, Fakten, Meinungen, Ver- 
halten) und Wechsel der Fragentypen (geschlossene, offene Fragen, Listen- 
oder Kartenvorlagen, wechselnde Formate und Farben des Vorlagematerials) 
aufrechterhalten bzw. gesteigert werden (Stroschein 1965). Noelle-Neumann 
(1963, 1974) schlagt sogar einen eigenen Typ instrumenteller Fragen, die soge- 
nannten ,Spielfragen‘ (Beurteilung von Frisuren, Kleidern, Farbwahlen etc.) 
nur zur Beeinflussung von Motivation bzw. Aufmerksamkeit vor. Lange Se- 
rien geschlossener Fragen gelten als frustrierend und monotoniefordernd, Se- 
rien offener Fragen als anstrengend und dadurch ermudend (Noelle-Neumann 
1974). 

Die behaupteten Wirkungen spezieller Einleitungsfragen und der verschiede- 
nen Techniken zur Beeinflussung von Aufmerksamkeit und Motivation sind 
empirisch allerdings nicht abgesichert (Kreutz & Titscher 1974). 

1m Zusammenhang mit der Forderung nach haufigem, durchaus auch sprung- 
haftem (Noelle 1963) Themenwechsel werden von Autoren aus dem Bereich 
der kommerziellen Markt- und Meinungsforschung die sogenannten Mehrthe- 
menumfragen (Omnibus-Befragungen) als methodisch besonders vorteilhaft 
hervorgehoben. Es stellt sich allerdings die Frage, ob hier nicht eine Not zur 
Tugend gemacht werden soil. Immerhin betont Richter (1969), daB jeder The- 
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menwechsel mit einer besonderen Anstrengung fur den Befragten (Umorien- 
tierung) verbunden sei, und fordert fiir unpersdnlich-schriftliche (postalische) 
Befragungen im Interesse eines hohen Riicklaufs eine Zusammenstellung von 
Fragen nach MaBgabe der Befragungsthemen zu sogenannten ,assoziativen 
Blocken 1 . Eine moglichst sinnvolle Ordnung von Fragen wird von Autoren 
wie Phillips (1966), Goode & Hatt (1972), (mit Einschrankungen) Holm 
(1974b), Cannell et al. (1977), Karmasin & Karmasin (1977) gefordert (vgl. 
auch 4.1). Auch Anger (1969) warnt vor zu starkem Themenwechsel, von dent 
er Gefahren fiir die erlebte Seriositat der Befragung ausgehen sieht. Empirische 
Untersuchungen, in denen Themenwechsel und logischer Fragebogenaufbau 
verglichen worden waren, scheinen nicht zu existieren (vgl. Kreutz & Titscher 
1974), allerdings ist auch zweifelhaft, ob sie generalisierbare Befunde zutage 
fordern konnten. Vermutlich gibt es nur den Weg, unter Beriicksichtigung von 
moglichen Monotonieeffekten einerseits und Belastungen durch inhaltliche 
Umorientierung sowie des Bedurfnisses der Vpn nach sinnvollem Zusammen- 
hang der Fragen andererseits, die giinstigste Themen- und Fragendispostition 
im Einzelfall durch Pretest empirisch zu bestimmen. 

4.3 Reihenfolgeeffekte 

Einflusse der Stellung einer Frage innerhalb eines Fragebogens auf die Ant- 
worten konnen einmal durch die Inhalte vorangegangener Fragen, dann aber 
auch unabhangig von diesen Inhalten dadurch zustande kommen, daB die 
Frage fruher oder spater im Verlauf einer Befragung gestellt wird und das 
Antwortverhalten der Vpn sich liber die Dauer der Befragung verandert (Brad- 
burn & Mason 1964). Da vorausgehende Fragen immer Inhalte haben und 
andererseits das Vorausgehen einer Frage bestimmten Inhaltes die zu betrach- 
tende Frage notwendig an eine spatere Stelle verschiebt, ist es prinzipiell nicht 
moglich, diese Effekte vollig voneinander zu isolieren. Im Interesse theoreti- 
scher Klarheit werden dennoch im folgenden als ,Kontexteffekte‘ Einflusse des 
Inhaltes vorangehender Fragen und als ,Positionseffekte‘ Einflusse der relati- 
ven Position auf die Antworten zu einer gegebenen Frage unterschieden. 



4.3.1 Kontexteffekte 

Diese oft auch als Ausstrahlungseffekte angesprochenen Einflusse vorangegan- 
gener auf nachfolgende Fragen lassen sich nach einem auf Bradburn & Mason 
(1964) zuriickgehenden Vorschlag in 

Aktualisierungs- (Prasenz-, saliency-) Effekte oder allgemeiner Lerneffekte 
(Anger 1969), 

Konsistenzeffekte und 
Redundanzeffekte 
einteilen. 
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Aktualisierungseffekte kommen dadurch zustande, daB eine vorausgegangene 
Frage die Antworten auf eine nachfolgende beeinfluBt, indem sie bestimmten 
Sachverhalten oder bestimmten Bezugsrahmen im BewuBtsein der Befragten 
hoheres Gewicht verleiht. Hierfiir finden sich in der Literatur mehrfach Bei- 
spiele bzw. empirische Belege. Stellt man z.B. zunachst eine Frage nach Er- 
wartungen zur Preisentwicklung und danach eine solche nach den wichtigsten 
Fragen, mit denen Politiker sich in nachster Zeit beschaftigen sollten, ist zu 
erwarten, daB die Preisstabilitat erheblich haufiger genannt wird, als sie ohne 
eine derartige vorausgegangene Frage genannt worden ware (Noelle-Neumann 
1974), einfach weil die Preisstabilitat als politisches Thema einen hoheren Grad 
der BewuBtheit erhalten hat. Durch Aktualisierung eines geeigneten Bezugs- 
rahmens laBt sich erklaren, daB ,Kartoffeln‘ in einer Untersuchung, die Noel- 
le-Neumann (1970) referiert, von 30% der Befragten die Eigenschaft eines 
.deutschen' Nahrungsmittels zugesprochen wurde, wenn nach ihnen vor, von 
48%, wenn nach ihnen h i n t e r dent Nahrungsmittel .Reis’ gefragt wurde 
(ahnliche Reihenfolgeeffekte gab es auch fur Reis und Nudeln). Willick & 
Ashley (1971) befragten College-Studenten, welche politischen Parteien sie 
und welche ihre Eltern bevorzugen wiirden, und erhielten signifikant mehr 
iibereinstimmende Angaben (fiir die eigene Bevorzugung und die der Eltern), 
wenn zuerst nach der Bevorzugung des Studenten und danach nach der der 
Eltern gefragt wurde. Sie erklaren diesen Befund mit dem Bemiihen der Stu- 
denten. Unabhangigkeit von den Ansichten ihrer Eltern zu demonstrieren. 
Dies war dann nicht ohne weiteres moglich, wenn die Studenten zum Zeit- 
punkt der Antwort betreffend ihre eigene Meinung nicht wuBten, daB sie auch 
nach der Haltung ihrer Eltern (die fiir sie in der Regel anschaulich festlag) 
befragt werden wiirden. Weitere Beispiele beziehen sich auf das Recht des 
Eintritts fiir Amerikaner in die deutsche bzw. englische oder franzosische 
Arniee wahrend des Zweiten Weltkrieges (Rugg & Cantril 1972) und auf die 
Haltung von Einwohnern der BRD gegeniiber den USA bzw. der UdSSR 
(Noelle-Neumann 1970). 

Aktualisierung kann je nach Befragungszielen ein unerwiinschter, evtl. aber 
auch ein erwiinschter Reihenfolgeeffekt sein. Besteht das Ziel der Befragung 
darin, Beurteilungen oder Bewertungen von Sachverhalten moglichst unbeein- 
fluBt von Aktualisierungen zu erhalten, wahlt man haufig eine als ,Trichter‘ 
bezeichnete, vom Allgemeineren zum Spezielleren fortschreitende Reihenfolge 
(vgl. Maccoby & Maccoby 1972, Hennig 1975, Karmasin & Karmasin 1977). 
Friedrichs (1973) beschreibt die von Gallup verwendete Standard-Fragenfolge 
eines Trichters: 

Vertrautheit mit dent Sachverhalt 

(offene Wissensfrage, z.B. .Was verstehen Sie unter . . .‘), 

unbeeinfluBte Einstellung 

(offene Einstellungsfrage, z.B. ,Was sollte X fiir . . . tun?‘), 
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Reaktion auf spezifische vorgegebene Einstellungen 

(geschlossene Fragen, z.B. .Manche sagen . . . andere sagen . . . was meinen 
Sie ist richtig?'), 

Begriindung der Reaktion auf vorgegebene Einstellungen 
(offene Warumfrage), 

Intensitat der Einstellung 
(Skalafrage). 

In Fallen, in denen die aktualisierende Wirkung vorausgegangener Fragen be- 
fragungstaktisch erwunscht bzw. erforderlich ist, bedient man sich gelegent- 
lich auch der Technik des umgekehrten Trichterns, d.h. des Fortschreitens 
vom Speziellen, Konkreten zum Allgemeinen, Abstrakten (Maccoby & Mac- 
coby 1972). Hennig (1975) ftthrt z.B. aus, daB eine Frage an Arbeiter nach der 
vorausgesehenen Organisation von Produktionsablaufen in zehn Jahren kaum 
zu verwertbaren Antworten flihren diirfte, wenn sie ,unvermittelt‘ gestellt 
wird. Erfolgversprechender ist hier eine Fragenfolge nach Art eines umgekehr- 
ten Trichters, z.B. 

.Sind in Ihrem Betrieb in der nachsten Zeit Neuerungen im Produktionsab- 
lauf geplant? Wenn ja: welche?‘, 

.Was glauben Sie. wie in zehn Jahren der Produktionsablauf aussehen 
wird?‘. 

Befragungstaktisch beabsichtigt und gezielt eingesetzt werden Aktualisierun- 
gen durch geeignete Fragenfolge auch. wenn seitens der Vp eine Reproduktion 
von Gedachtnisinhalten erforderlich ist. Cannell & Kahn (1968) schlagen in 
solchen Fallen vor, die Vpn z.B. durch chronologisch geordnete Fragen auf 
den thematischen Sachverhalt hinzufiihren (vgl. auch Mauldin & Marks 1950, 
Phillips 1966). 

Von Konsistenzeffekten der Fragenfolge spricht man, wenn die Vp eine Frage 
nicht ,zutreffend‘ sondern so beantwortet, daB sie zu ihren Antworten auf 
vorangegangene Fragen nicht in Widerspruch gerat. Noelle-Neumann (1974) 
nennt als Beispiel Aussagen von Befragten tiber Aufwendungen fiir .Luxusarti- 
kel‘ (z.B. Blumen), die dann niedriger angegeben werden, wenn die Befragten 
in einer vorangegangenen Frage .sparsame Lebensftihrung 1 firr sich in An- 
spruch genommen haben. Auch Holm (1974 b) weist auf solche Gefahren hin, 
insbesondere dann, wenn die Fragen zu einer bestimmten ,Zieldimension‘ 
gruppiert (zusammengestellt) sind. Bradburn & Mason (1964) gelang es ande- 
rerseits nicht, in ihren Untersuchungen Anhaltspunkte fiir derartige Reihen- 
folgeeffekte zu finden: Antworten auf eine Frage nach ,globaler‘ Zufriedenheit 
wurden hier nicht davon beeinfluBt, ob Fragen zur Zufriedenheit mit speziel- 
len Aspekten vorausgegangen waren oder nicht. 

Ist mit ausgepragten Konsistenzneigungen der Vpn zu rechnen, so empfiehlt 
sich nach Noelle-Neumann (1974) eine Fragenfolge nach Art des umgekehrten 
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Trichters: Spezifische Angaben (z.B. .Ausgaben fiir Luxusartikel") wtirden 
dann als weniger widersprilchlich mit allgemeinen (.prinzipielle Sparsamkeit‘) 
empfunden, wenn sie diesen vorangehen. Mit ahnlicher Begrundung empfeh- 
len Tittle & Hill (1967) erst nach Verhalten und dann nach Einstellungen zu 
fragen. 

Als Redundanzeffekt bezeichnen Bradburn & Mason (1964) das Ausbleiben 
bestimmter Antworten auf Fragen dadurch, daB diese Antworten bereits auf 
friihere Fragen gegeben wurden und die Vpn sich nicht wiederholen wollen. 
Sie berichten von geringeren Haufigkeiten fiir die Nennung bestimmter (z.B. 
Partner-)Probleme in einer offenen Frage nach ,Sorgen‘, wenn diese Probleme 
bereits Gegenstand vorangegangener Fragen waren. Auch Noelle-Neumann 
(1974) betont, daB man in solchen Fallen die Antworten auf die spiitere Frage 
nicht unabhangig von denen auf die vorangegangenen Fragen betrachten und 
behandeln dlirfe. 

In gewissem Sinne liegen Reihenfolgeeffekte nach Art von Kontexteffekten 
auch vor, wenn durch (erfolgreiche) Verwendung von Puffer- oder Ablen- 
kungsfragen (vgl. 2.1) Auswirkungen friiherer auf spatere Fragen vermieden 
werden: Auch hier lauteten die Antworten anders, wurden diese instrumentel- 
len Fragen der thematischen Frage nicht vorangehen. Daruber hinaus lassen 
sich durch die Schwierigkeitsabstufung von Fragen Reihenfolgeeffekte erzeu- 
gen, etwa im Sinne einer Erleichterung besonders schwieriger Fragen durch 
langsamen Schwierigkeitsanstieg oder im Sinne einer Uberwindung von ,Ant- 
worthemmungen' durch starke Schwierigkeitsunterschiede (vgl. 4.4). 

DaB im Falle unpersonlicher schriftlicher (postalischer) Befragungen infolge 
Nichtkontrollierbarkeit der Reihenfolge der Bearbeitung von Fragen auch 
Auswirkungen nachfolgender auf vorangehende Fragen moglich sind, sei der 
Vollstandigkeit halber erwahnt. Entsprechendes gilt, da der Interviewer ja den 
ganzen Fragebogen kennt und die registrierten Antworten auf verschiedenen 
Wegen mitbeeinfluBt, ubrigens auch ftir miindliche Interviews. 



4.3.2 Positionseffekte 

Nach Richter (1969) und Goode & Hart (1972), die dafiir allerdings empirische 
Belege nicht vorlegen, nimmt die Wahrscheinlichkeit fiir den Abbruch eines 
Interviews vom Anfang zum Ende des Interviews hin ab. Karmasin & Karma- 
sin (1977) fiihren dies (im Falle von miindlichen Interviews) darauf zurlick, 
daB mit der Interaktionshaufigkeit auch die Sympathie zwischen Interviewer 
und Befragtem (man muB wohl erganzen: in der Regel) wachse, und leiten 
daraus auch eine Tendenz zu weniger negative n Urteilen an spaterer Stelle im 
Interview ab. Kraut et al. (1975) konnten empirisch allerdings nur leichte 
Tendenzen in Richtung auf weniger extreme Urteile und mehr Auslassungen 
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bzw. Nichtbeantwortungen gegen Ende einer personlichen schriftlichen Be- 
fragung nachweisen. Von abnehmender ,Sorgfalt‘ im Verlauf des Interviews 
berichtet auch Stroschein (1965). Johnson et al. (1974) kamen in entsprechen- 
den Untersuchungen fur eine offene Frage zu dem Ergebnis, dafi diese insge- 
samt am meisten Information lieferte, wenn sie einmal am Anfang und dann 
erneut am Ende einer Serie von 18 bzw. 62 geschlossenen Fragen gestellt 
wurde. Besteht (wie im Regelfall) nur die Moglichkeit, die Frage einmal zu 
stellen, so liefert sie am Anfang des Fragebogens mehr Information als am 
Ende, d.h. der mogliche Zugewinn an Aspekten durch Lernprozesse wahrend 
der Befragung wird durch Effekte verringerter Motivation bzw. Aufmerksam- 
keit uberkompensiert. 

Zusammenfassend konnen die vorliegenden Befunde wohl als Hinweise darauf 
gelten, daB insbesondere schwierige und anstrengende Fragen nicht zu spat, 
wegen der Abbruchgefahr aber auch nicht zu frith im Fragebogen auftauchen 
sollten. Beurteilungen sind in ihren extremen Auspragungen nur vergleichbar, 
wenn die Fragen etwa gleiche Positionen im Fragebogen hatten, betrachtet 
man allerdings nicht die Extremkategorien (z.B. ,sehr dafiir 1 ), sondern die 
Mittelwerte der Einstufungen, so sind (mindestens nach den Befunden von 
Kraut et al. 1975) Positionseffekte kaum noch zu befiirchten. 



4.4 Unangenehme und heikle Fragen 

iibereinstimmend findet sich in der Literatur die Empfehlung, unangenehme 
bzw. heikle Fragen (z.B. solche nach Einkommen, Kindererziehung, Allge- 
meinbildung, Sexualitat, Familienverhaltnissen, korperlicher Sauberkeit, vgl. 
2.3) erst in der zweiten Halfte des Fragebogens zu stellen, um einerseits das 
verringerte Risiko fur Abbriiche, andererseits das angewachsene ,Vertrauen‘ 
der Befragten zu nutzen (Kreutz & Titscher 1974, Karmasin & Karmasin 
1977). Daruber hinaus gibt es jedoch spezielle Techniken der Beriicksichtigung 
heikler Fragen im Fragebogenaufbau. Im Sinne einer Erfahrungsregel schlagt 
Noelle-Neumann (1974) z.B. vor, solche Fragen besonders einfach zu formu- 
lieren und sie nach betont schwierigen Fragen (z.B. offenen Wissensfragen mit 
schwierigen Inhalten) zu plazieren. Durch einen Kontrasteffekt werde die 
kritische Frage dann als besonders leicht erlebt und gewissermaBen nach Art 
einer Selbstiiberrumpelung beantwortet, bevor auf Seiten der Vp mogliche 
Antworthemmungen uberhaupt zur Wirkung kommen konnten. Koolwijk 
(1968) fand in seinen Untersuchungen Angleichungs- und Kontrasteffekte fur 
die Unangenehmheit von Fragen: LieB er eine unangenehme Frage auf eine 
neutrale folgen, so verstarkte sich die Unangenehmheit (Kontrast), ging umge- 
kehrt die unangenehme Frage der neutralen voran, so wurde tendentiell auch 
letztere als unangenehm erlebt (Angleichung, halo). Aus diesen Befunden lei- 
tet er die Forderung ab, einer inhaltlich interessierenden unangenehmen Frage 
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zur .Einstimmung 1 und zur Vermeidung des Kontrasteffektes eine ebenfalls 
unangenehme (evtl. Wegwerf-Frage) voranzuschicken und nachfolgende neu- 
trale Fragen durch Pufferfragen gegen vorausgegangene unangenehme Fragen 
abzuschirmen. 

SchlieBlich haben Goode & Hatt (1972) darauf hingewiesen, daB Unange- 
nehmheit nicht nur eine Einzelfrage, sondern auch eine Fragenfolge kenn- 
zeichnen kann, d.h. sie fordern fiir den Fragebogenaufbau die Vermeidung 
von Fragenfolgen, die fiir bestimmte Vpn peinlich werden konnten. Der Fra- 
genfolge 1. , Haben Sie Kinder? 1 , 2. ,Sind Sie verheiratet? 1 ware unter diesem 
Kriterium die umgekehrte Folge mit Filterung ,Sind Sie verheiratet?, wenn ja: 
Haben Sie Kinder? 1 vorzuziehen. 



4.5 Fragen zur Person 

Die unsicheren Grundlagen einer an Erfahrungsregeln statt an empirischen 
Untersuchungsergebnissen orientierten Fragebogenkonstruktion werden im 
Zusammenhang mit den Empfehlungen deutlich, die verschiedene Autoren fiir 
die Position von Angaben zur Person (biographischen Angaben bzw. derno- 
graphischen Fragen) geben. So stellt Noelle-Neumann (1974, 244) nachdriick- 
lich fest: ..Personenstandsdaten gehoren nicht an den Anfang des Interviews, 
sondern an das Ende; an den Anfang gesetzt geben Sie dem Interview den 
Charakter eines Verhors 11 . Eine ahnliche Position vertritt auch Stollberger 
(1966). Dem steht die Auffassung von Kreutz & Titscher (1974) entgegen, die 
Fragen zur Person an den Anfang des Fragebogens gestellt wissen mochten, 
weil ihnen einerseits die Forderung nach der SchluBposition fiir solche Fragen 
empirisch nicht begriindet zu sein scheint und sie andererseits sorgfiiltigere 
und damit giiltigere Antworten erwarten, wenn die Vp gleich zu Beginn der 
Befragung (bei den Fragen zur Person) feststellt, daB sich der Untersucher fiir 
sie als Individuum interessiert. Auch hier handelt es sich allerdings um eine 
Spekulation, die man im Vergleich zur Gegenposition fiir plausibler halten 
kann oder auch nicht. 



4.6 Filterfragen und Verzweigungsfragen 

Ablauf-Ordnungsfragen (vgl. 2.1) wie Filter- und Gabelungs- bzw. Verzwei- 
gungsfragen stellen im Interesse der Vermeidung von .Unterstellungen 1 (vgl. 
3.1.4) bzw. der Nichtbelastung von Vpn mit unzutreffenden Fragen ein haufig 
unverzichtbares Mittel bei der Festlegung einer angemessenen Fragenfolge in- 
nerhalb eines Fragebogens dar. Andererseits sollte sich der Fragebogenkon- 
strukteur vergegenwartigen, daB mit dem Einbau von Filterungen und Ver- 
zweigungen in einen Fragebogen die Fehlerhiiufigkeit unweigerlich ansteigt. 
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So berichten Cannell et al. (1977) fUr miindliche standardisierte Interviews, 
daB 

von Fragen, die alien Vpn gestellt werden sollten, nur 1,5% bei mehr als 
10% der Vpn ausgelassen wurden, aber 
von Fragen, die infolge Filterung bzw. Verzweigung nur fur Subgruppen 
vorgesehen waren, 54% bei mehr als 10% der Vpn nicht oder nicht richtig 
gestellt wurden. 

Richter (1969) hat fur den Fall unpersonlich-schriftlicher (postalischer) Befra- 
gung die Beachtung von Filteranweisungen untersucht und je nach Bildungs- 
stand, Einkommen, Beruf etc. Nichtbeachtungsanteile bis in die GroBenord- 
nung von 30% der Befragten gefunden, so daB die Verwendung von Filterun- 
gen und Gabelungen beim Aufbau von Fragebogen fur unpersonlich-schriftli- 
che Befragung moglichst zu vermeiden ist (Wieken 1974). 

4.7 Spezielle Gesichtspunkte fur die Itemreihenfolge 
diagnostischer Fragebogen 

Fiir diagnostische Fragebogen stellt sich insbesondere die Frage, ob Items nach 
ihrer ,Zieldimension‘ gruppiert bzw. ob sie in Zufallsfolge vorgegeben werden 
sollten. Die Gruppierung von Items nach ihrem Inhalt erhoht tendenziell die 
Durchschaubarkeit und wird daher flir empirische Konstruktionen (vgl. 1.1.2) 
von vornherein nicht in Betracht gezogen. Hier liegen prinzipiell zufallige 
Itemfolgen vor, die allenfalls im Interesse leichterer Auswertbarkeit durch fiir 
die Vpn nicht ersichtliche systematische Anordnungen durchbrochen werden 
(vgl. als Beispiel den MMP1, die ,Lligenitems‘ sind hier systematisch angeord- 
net, Hathaway & Me Kinley 1963). 

Sieht man von der hoheren Durchschaubarkeit und damit Verfalschbarkeit 
und der Storung der stochastischen Unabhangigkeit der Einzelantworten ab. 
so kann fur Fragebogen mit inhaltlichem Validitatsanspruch eine inhaltliche 
Gruppierung von Items zu einer ,Sensibilisierung‘ der Vp in dem Sinne fiihren, 
daB sie durch die Zusammenstellung der Items ihre ,Lage‘ auf der Zieldimen- 
sion besser bestimmen kann, als sie das anhand verstreuter Items tun konnte. 
Dies wttrde zu valideren Antworten fiihren. Andererseits kann die Zusam- 
menstellung von Items die Vp aber auch zu inadaquat konsistentem Antwort- 
verhalten veranlassen und dadurch die Validitat beeintrachtigen. Es ist nur im 
Einzelfall zu klaren, ob vorwiegend die (erwunschte) Sensibilisierungsten- 
denz‘ oder die (unerwiinschte) ,Konsistenztendenz‘ (Holm 1974 b) durch eine 
inhaltliche Gruppierung der Items begiinstigt wird. DaB eine solche Gruppie- 
rung nicht notwendig zu artifizieller Konsistenz im Antwortverhalten fiihren 
muB, haben Metzner & Mann (1953) gezeigt: Sie fanden keine systematische 
Erhohung der Interkorrelationen von Items durch Gruppierung; fiir Einzelfal- 
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le berichten sie sogar erhebliche Senkungen der Korrelationen zwischen Items. 
Sie begriinden dies einleuchtend mit itemspezifischen Kontexteffekten, d.h. 
die Bedeutung eines Items kann sich dutch direkte Nachbarschaft zu anderen 
Items andern und zwar nicht nur (wie unter der Konsistenz-Hypothese erwar- 
tet) in Richtung auf hohere (Un-)Ahnlichkeit zu den anderen Items der ent- 
sprechenden Dimension. 

Darliber hinaus sind bei diagnostischen Fragebogen die Effekte der Reihenfol- 
ge der Items abhangig von der ,Sicherheit‘ bzw. .Zuganglichkeit' des zu erfas- 
senden Sachverhaltes bzw. der Lage einer Vp auf dem interessierenden latenten 
Kontinuum. Hayes (1964) konstruierte je eine Guttman-Skala aus .Angst- 
Items' und ,Mathematik-Aufgaben‘ und stellte fest, daB zwar bei Angst-Items, 
nicht aber bei Mathematik-Aufgaben die (in aufsteigender Schwierigkeit) ge- 
ordnete Vorgabe der Items zu signifikant anderen Antworten und damit (ge- 
ringeren) Angst-Werten fiihrte als die ungeordnete Vorgabe. Eingeschobene 
,irrelevante‘ Items blieben bei beiden Skalen ohne Auswirkungen. 



4.8 Uberlegungen zur Vermeidung unerwiinschter 
Reihenfolgeeffekte 

Fiir die Elimination von Reihenfolgeeffekten aus den Ergebnissen fur Vpn- 
Gruppen gelten prinzipiell diejenigen Uberlegungen, die im Zusammenhang 
mit der Kontrolle von Einfllissen der Fragenformulierung in 3.4 angestellt 
worden sind. Wie dort, so kann auch bezliglich der Fragenreihenfolge im 
Rahnien einer gegabelten Befragung (Split-ballot-verfahren) mit verschiedenen 
Fragebogenvarianten gearbeitet und die Absicht verfolgt werden, die Reihen- 
folgeeinfltisse ,herauszumitteln‘ (vgl. zu dieser Vorgehensweise die Ausfiih- 
rungen iiber die Variation der Reihenfolge von Antwortvorgaben in 3.1.3). 
Wie im Falle der Formulierungseffekte muB aber auch hier gefragt werden, ob 
solche .mittlere' Antworten eine inhaltliche Bedeutung haben oder ob die 
Existenz von Reihenfolgeeffekten ein Hinweis darauf ist, daB die Erfassung 
des Inhaltes mit der verwendeten Methode nicht oder nur unzureichend ge- 
lingt. 

Halt man die Variation der Fragenreihenfolge fiir ein angemessenes Verfahren, 
so ist es prinzipiell giinstig, mit moglichst vielen Varianten des Fragebogens zu 
arbeiten und im Extremfall fiir jeden Befragten einen eigenen Fragebogen zu 
erstellen. Die damit verbundenen Probleme und die Moglichkeiten, die der 
Einsatz elektronischer Datenverarbeitungsanlagen zur Erstellung auswertbarer 
individualisierter Fragebogen bietet. diskutiert Perreault (1976; fiir den Fall 
des semantischen Differentials vgl. auch Kane 1969). Cataldo et al. (1970) schla- 
gen nicht zuletzt wegen leichterer Variierbarkeit der Reihenfolge den verstiirk- 
ten Einsatz von card-sorting-Techniken im Rahnien von (personlichen) Befra- 
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gungen vor: Statt flir die einzelnen Statements Fragen nach dem Grad ihres 
Zutreffens beantworten zu lassen, werden dabei die Statements auf Karten 
geschrieben und den Vpn zur Einordnung in bestimmte Antwortkategorien 
(z.B. ,sehr dafttr 1 , ,dafiir‘, ,dagegen‘, ,sehr dagegen") iibergeben. 

Soweit man die Variation der Reihenfolge nicht fitr ein angemessenes Vorge- 
hen halt, mit der Existenz von Reihenfolgeeffekten aber rechnen muB, ist 
entsprechend den Ergebnissen von Kraut et al. (1975; vgl. auch 4.3.2) zu 
beriicksichtigen, dafi streng vergleichbar nur Antworten auf Fragen sind. die 
in Fragebogen an der gleichen Position (und im gleichen Kontext) verwendet 
wurden, und dafi die Antworten aufier inhaltlichen auch Reihenfolgeeffekte 
wiederspiegeln. Je intensiver, klarer, sicherer die zu erfassenden Sachverhalte 
fur die Vpn sind. desto geringer sind ceteris paribus die Einfliisse der Fragen- 
folge auf die Antworten (vgl. Bradburn & Mason 1964, Hayes 1965, Willick & 
Ashley 1971). 



4.9 Fragebogenumfang 

Zwar findet sich in fast jeder Darstellung von Befragungsmethoden auch eine 
Angabe bzw. Empfehlung beziiglich des akzeptablen Fragebogenumfanges 
bzw. der akzeptablen Interview- bzw. Bearbeitungsdauer, doch handelt es 
sich dabei stets nur um Erfahrungswerte bzw. common-sense-Angaben. Ty- 
pisch dafiir ist z.B. Noelle (1963), die als Richtwert fur die Dauer eines miind- 
lichen Interviews 30 Minuten nennt (ahnliche Werte finden sich z.B. auch bei 
Kirschhofer-Bozenhardt & Kaplitza 1975, Karmasin & Karmasin 1977), bei 
.gutem Aufbau‘ aber auch mehr als eine Stunde fur moglich halt. Als Indikator 
filr die Einhaltung bzw. Uberschreitung der akzeptablen Dauer schlagt sie vor, 
die Befragten am Ende des Interviews diese Dauer schatzen zu lassen: Werde 
sie unterschatzt, sei das Interview nicht zu lang gewesen. 

Empirische Untersuchungen der Wirkung unterschiedlicher Fragebogenum- 
fange wurden - soweit bekannt - nur im Zusammenhang mit unpersonlich- 
schriftlichen (postalischen) Befragungen durchgeflihrt, wobei abhangige Va- 
riable stets allein die Rucklaufquote war. Berdie (1973), der auch altere Unter- 
suchungen referiert und die prinzipiell plausible negative Korrelation zwischen 
Fragebogenumfang und Riicklaufquote, von der viele Autoren berichten, als 
tradiertes .Einvernehmen' ohne nennenswerte empirische Basis entlarvt, fand 
zwar unterschiedliche Riicklaufquoten von 64%, 56% und 42% flir Fragebo- 
gen mit einer Seite (10 Fragen), 2 Seiten (20 Fragen) und 4 Seiten (40 Fragen), 
doch waren diese Unterschiede (bei 108 Vpn) statistisch nicht bedeutsam. 
Sheth & Roscoe (1975) verglichen die Riicklaufquoten fiir einen vierseitigen 
(23 Items, 10 min Bearbeitungszeit) und einen sechsseitigen (49 Items, 18 min 
Bearbeitungszeit) Fragebogen und fanden keinen Unterschied, wobei aller- 
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dings zu bedenken ist, daB die Fragebogenumfange nur wenig differierten und 
der langere Fragebogen sich vom kiirzeren auch inhaltlich systematisch unter- 
schied. Unterhalb des von ihm untersuchten Maximums von 4 Seiten und einer 
Bearbeitungszeit von 15-20 min fand auch Richter (1969) keinen Zusammen- 
hang zwischen Fragebogenumfang und Riicklaufquote, und Perreault (1975) 
berichtet von sehr hohen Riicklaufquoten sogar fur einen 9 Seiten umfassenden 
Fragebogen, der allerdings ,personalisiert‘ (mit personlich wirkendem An- 
schreiben etc. versehen) war (vgl. auch Erdos 1970, Linsky 1975). 

Natlirlich ist mit diesen Untersuchungen nicht bewiesen, daB es keinen Ein- 
fluB des Fragebogenumfangs auf Riicklaufquoten gibt. nur ist (moglicherweise 
durch die Anlage der Untersuchungen) der Nachweis fur einen solchen Zu- 
sammenhang noch nicht eindeutig erbracht worden. Auswirkungen des Frage- 
bogenumfangs auf andere Variablen (insbesondere die Qualitat der Antwor- 
ten) und fiir andersartige Befragungstechniken (z.B. personliche Befragung) 
wurden erst gar nicht untersucht. 

Solche Untersuchungen miiBten beriicksichtigen, daB der Fragebogenumfang 
drei (nicht unabhangige, aber unterscheidbare) Aspekte, die Item-Anzahl, die 
Seitenzahl und die Bearbeitungsdauer, aufweist und daB der von der Vp erlebte 
Urnfang nicht notwendig mit deni ,objektiven‘ Umfang identisch sein muB 
(Richter 1969 und Erdos 1970 betonen z.B. die Wichtigkeit der Gliederung 
von Fragenserien; vgl. auch die Ausfiihrungen liber die auBere Gestaltung des 
Fragebogens, 5.). Besondere Schwierigkeiten fiir die Untersuchung der Aus- 
wirkungen des Fragebogenumfangs ergeben sich einmal aus den zu erwarten- 
den Interaktionen mit anderen Merkmalen, dann aber auch aus der Tatsache, 
daB der Fragebogenumfang nicht ohne gleichzeitige Veranderung entweder 
des Fragebogeninhalts (bei einer Vermehrung der Zahl von Fragen) oder der 
Fragebogengestaltung (bei einer Verteilung der Fragen auf mehrere Seiten) 
vergroBert werden kann. Vielleicht liegt in diesen methodischen Schwierigkei- 
ten eine Erklarung fiir den bemerkenswerten Mangel an empirischen Untersu- 
chungen zur Rolle des Fragebogenumfangs. 



5 . Aufiere Gestaltung (Layout) des Fragebogens 

Fragen der typographischen und farblichen Gestaltung und des Layouts von 
Fragebogen sind kaum empirisch untersucht worden. Entsprechend gibt es 
sowohl was schriftlich zu bearbeitende Fragebogen (vgl. Flartley et al. 1977), 
als auch was Interviewer-Fragebogen fiir miindliche Befragungen betrifft (vgl. 
ldaase 1978) wenig gesicherte Erkenntnisse. Andererseits berichtet Gray 
(1975) fiir unpersonlich-schriftliche (postalische) Befragungen durch Verbesse- 
rung der graphischen Gestaltung des Fragebogens im Vergleich zu einer ma- 
schinenschriftlichen ersten Version Riicklaufsteigerungen von ca. 30%, Ver- 
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minderungen der Bearbeitungszeiten von ca. 40 auf 20 Minuten und der Ab- 
lochzeiten um etwa 1/3. Rlicklaufsteigerungen um immerhin noch 8% durch 
veranderte graphische Gestaltung fand auch Richter (1969). Es scheint also, 
daB gerade in der auBeren Aufmachung von Fragebogen erhebliche Moglich- 
keiten flir eine Optimierung unter dem Kriterium der Qualitat der Antworten 
und/oder unter okonomischen Aspekten liegen. 

Die Verwendung von Farben kann innerhalb eines Fragebogens unterschiedli- 
chen Zielen dienen. Bei unpersonlich-schriftlichen (postalischen) Befragungen 
wird mitunter versucht, durch Wahl einer ansprechenden Papierfarbe den 
Rlicklauf glinstig zu beeinflussen, zumal damit keine ins Gewicht fallenden 
zusatzlichen Kosten verbunden sind. Sharma & Singh (1967) konnten - aller- 
dings bei hochmotivierten und akademisch gebildeten Vpn mit einem Gesamt- 
riicklauf von 87,7% - keinerlei EinfluB der Papierfarbe (weiB, rosa, gelb) auf 
den Rucklauf feststellen, ebensowenig gelang dies Gullahorn & Gullahorn 
(1963) fur die Farben weiB und griin. Das bedeutet natiirlich nicht, daB ftir 
andere Farben, in anderen Populationen und bei Fragebogen mit anderen 
formalen und inhaltlichen Merkmalen solche Einfliisse ebenfalls ausgeschlos- 
sen waren. Wegen der dadurch entstehenden Ahnlichkeit mit Werbedrucksa- 
chen warnt Erdos (1970) vor mehrfarbigen Fragebogen flir unpersonlich- 
schriftliche (postalische) Befragungen. 

Mit Vorteil laBt sich Farbe zur Kennzeichnung von Gabelungen und Verzwei- 
gungen in Fragebogen im Interesse einer besseren Handhabbarkeit durch den 
Interviewer einsetzen. Derartigen Farbkodierungen sind in der Praxis aller- 
dings durch die hohen Kosten mehrfarbigen Druckes enge Grenzen gesetzt 
(Noelle 1963). 

Ausgiebiger Gebrauch wird vom Medium Farbe bei Listen- und Kartenvorla- 
gen gemacht, einmal im Interesse der Abwechslung ftir den Befragten (vgl. 
4.2), aber auch zum Zwecke besserer Unterscheidbarkeit und eindeutiger Zu- 
ordnung zu den betreffenden Fragen fur den Interviewer. Unproblematisch ist 
dies jedoch nur, wenn man davon ausgehen kann, daB die verwendete Farbe 
die Verteilung der Antworten (gewahlten Karten) nicht beeinflufit. Ring 
(1969) versuchte dies flir rote und graue Kartenvorlagen zu klaren. Er kam zu 
dem Ergebnis, daB weder Zahl noch Art der Antworten durch die Hinter- 
grundfarbe der Kartenvorlage beeinflufit wurden (die vereinzelt und unsyste- 
matisch aufgetretenen Antwortunterschiede in Abhangigkeit von der Farbe 
des Kartensatzes lassen sich als Produkte des Zufalls betrachten). 

Obwohl es fur die Motivation der Befragten vorteilhaft sein diirfte, wenn der 
Fragebogen durch Bedrucken der Vorder- und Riickseiten kurz erscheint (Er- 
dos 1970), ist von diesem Vorgehen abzuraten: Fragen auf der Riickseite wer- 
den zu haufig iibersehen (Kirschhofer-Bozenhardt & Kaplitza 1975). 
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Im Hinblick auf das Layout im engeren Sinne fordern Karmasin & Karmasin 
(1977) bei Fragebogen fur mundliche Befragungen vor allem eine deutliche 
optische Unterscheidung (z.B. durch verschiedene Schrifttypen, Umrahmun- 
gen u.a.) zwischen Anweisungen an den Interviewer, eigentlichem Fragentext 
und Antwortvorgaben. Nach Richter (1969) sollte bei schriftlich zu bearbei- 
tenden Fragebogen (besonders im Falle unpersonlicher Befragung) auf Seiten 
der Vp der Eindruck vermieden werden, es handele sich um lange Fragenserien 
oder um viele einzelne Fragen, damit Ermudungs-, Sattigungs- und Monoto- 
nieerlebnisse bei der Beantwortung moglichst gering gehalten werden konnen. 
Dazu schlagt er vor, einerseits der Einzelfrage nicht zuviel optisches Gewicht 
zu geben, sondern sie in einen Fragenblock einzugliedern, andererseits aber 
diese Fragenblocke auch nicht zu umfangreich zu gestalten und sie durch 
Uberschriften etc. voneinander abzuheben. Eine Beschreibung und Diskus- 
sion verschiedener Schrifttypen, TypengroBen, Satz- und Drucktechniken fin- 
det sich z.B. bei Erdos (1970), Gray (1975) und Wright & Barnard (1975). 

Bei geschlossenen Fragen sind Kastchen oder Kreise vorzusehen, die der Vp 
anzeigen, wo sie ihre Markierung anzubringen hat. Handelt es sich um Fra- 
genserien. sollten diese Kastchen bzw. Kreise eine klare graphische Anord- 
nung (z.B. in einer Reihe untereinander) erhalten (Richter 1969) und zur 
Vermeidung von Verwechslungen nicht zu weit vom Text der Antworten 
entfernt sein (Wright & Barnard 1975). Richter (1969) fordert dariiber hinaus, 
bei der Wahl der GroBe filr die Kastchen bzw. Kreise auf Besonderheiten der 
jeweiligen Zielpopulation Riicksicht zu nehmen. So seien bei alteren Menschen 
groBere Kastchen bzw. Kreise erforderlich, aber auch z.B. Architekten unter- 
schieden sich von z.B. Elektroingenieuren erheblich in der GroBe der Kreuze, 
was bei ersteren im Interesse der UnmiBverstandlichkeit der Markierungen 
groBere Kastchen bzw. Kreise erforderlich rnache. 

Hartley et al. (1977) untersuchten den EinfluB der Reihenfolge und genauen 
Anordnung von Antworttext, Kastchen und Codeziffern experimentell und 
stellten flir die vier von ihnen verwendeten Varianten keine Auswirkungen auf 
das Antwortverhalten fest. Gewisse Unterschiede ergaben sich beirn Zeitbe- 
darf ftir die Erstellung des Fragebogenentwurfs, bei den Kosten fiir den 
Drucksatz und bei den Ablochkosten. 

Zur Veranschaulichung und Verdeutlichung von Situationen bzw. Zusammen- 
hangen, fiir die Beurteilungen oder Bewertungen erfragt werden sollen, z.T. 
aber auch im Interesse des Abwechslungsreichtums (vgl. 4.2), wird die Ver- 
wendung bildlicher Vorlagen empfohlen (z.B. Noelle 1963). Karmasin & Kar- 
masin (1977) stellen jedoch fest, daB dabei mit subtilen, im einzelnen uberwie- 
gend nicht bekannten Einfliissen auf die Antworten zu rechnen sei. So werde 
z.B. ein Mann mit Hut innerhalb einer solchen bildlichen Vorlage als konser- 
vativer und besser situiert eingeschatzt als ein Mann ohne Hut, eine Hausfrau 
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mit sehr langem Haar gelte als weniger kompetent im Vergleich zu einer Frau 
mit kurzem Haar. In Abhangigkeit davon, wie bestimmte Rollentrager bzw. 
die Vertreter bestimmter Meinungen in den bildlichen Vorlagen dargestellt 
werden, sind dadurch Einfliisse auf die Antworten zu erwarten. Ring (1975) 
konnte Veranderungen in der Wahlhaufigkeit ftir bestimmte Statements in 
einer GroBenordnung von 5% - 10% nachweisen, wenn die Zuordnung der 
Statements zu (stilisierten) Personen in einer bildlichen Vorlage vertauscht 
wurde. Nach Anlage dieser Untersuchung kann allerdings nicht entschieden 
werden, ob es sich dabei um Positionseffekte oder Einflusse der Darstellungs- 
weise der Personen handelt. 

Bei der Erarbeitung des Fragebogen-Layouts muB auch festgelegt werden, 
wieviel Antwortraum bei offenen Fragen ftir die Eintragung der Antworten 
vorgesehen werden soil. Payne (1951) und Goode & Hatt (1972) berichten - 
gestiitzt auf entsprechende Erfahrungen - einen Anstieg der Antwortlange 
mit VergroBerung des fiir die Antworten vorgegebenen Raumes. Dies gelte 
einmal ftir schriftliche Befragungen, bei denen die Vp sieht, wieviel von ihr als 
Antwort erwartet wird, zum anderen aber auch fur miindliche Befragungen, 
wobei ungeklart sei, ob der Interviewer die Antworten ausfiihrlicher protokol- 
liere oder die Vp z.B. durch starkeres Insistieren des Interviewers tatsachlich 
ausfiihrlicher antworte. Diese Frage griff Haase (1978) auf. Er lieB die Ant- 
worten der Vpn auf Tonband aufnehmen und stellte fest, daB - gemessen an 
der Zahl der Worter - die Antworten bei VergroBerung des ftir die Eintra- 
gung vorgesehenen Raumes tatsachlich langer wurden. Vom Antwortinhalt 
(Zahl der enthaltenen Antwortkategorien) her war die Ausfiihrlichkeit der 
Antworten jedoch nicht unterschiedlich. AuBerdem bestand eine Abhangig- 
keit vom Frageninhalt: Ein Anstieg der Antwortlange (Wortanzahl) durch 
VergroBerung des Antwortraumes konnte nur ftir Fragen nach Merkmalen 
einer kurzzeitig dargebotenen Anzeige und nach ,Geflihlen‘, die die Vpn mit 
dieser Anzeige verbinden, nicht aber ftir eine Frage nach bekannten Marken- 
namen fiir ein bestimmtes Produkt aufgezeigt werden. 

Bei schriftlichen Befragungen fand Trankle (1974) Hinweise darauf, daB Ant- 
worten auch auf inhaltlicher Ebene (Zahl enthaltener Kategorien) ausfiihrli- 
cher waren. wenn 8 statt nur 3 Zeilen fiir die Eintragung der Antwort vorgese- 
hen waren. Einfliisse des ftir Antworten vorgesehenen Raumes auf Antworten 
zu offenen Fragen scheinen also tatsachlich zu existieren, allerdings nur fiir 
bestimmte Frageninhalte, fiir einen bestimmten Variationsbereich des Ant- 
wortraumes (Haase 1978) und moglicherweise eher fiir die Form als fiir den 
Inhalt der Antworten. 

Eine neuere, erst durch Einsatz von Textverarbeitungsanlagen realisierbar ge- 
wordene Entwicklung im Bereich der Fragebogengestaltung ist die Individua- 
lisierung und Personcilisierung von Fragebogen. Fiir unpersonlich-schriftliche 
(postalische) Befragungen berichtet Perreault (1975) giinstige Einflusse auf den 
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Riicklauf, wenn der Fragebogen (scheinbarj individuell maschinenschriftlich 
erstellt, evtl. mit Namen und Adresse der Vp und mit dem Hinweis versehen 
ist, daB er in dieser Form nur an sie verschickt worden sei. Eingehender wird 
der Einsatz der Personalisierung im Interesse der Riicklaufsteigerung bei Er- 
dos (1970) behandelt. In Abhangigkeit vom jeweiligen Befragungsgegenstand 
ist allerdings auch zu bedenken, daB die Personalisierung, wenn sie ihr Ziel 
erreicht, die extremste Form der Nicht- Anonymitat und insofern ein ,zwei- 
schneidiges Schwert‘ (Linsky 1975) ist. 



6. Weitere Aspekte fiir die Konstruktion von Fragebogen 

6.1 Anonymitat des Befragten und Vertraulichkeit 
der Antworten 

Als , anonym' wird eine Befragung dann bezeichnet, wenn es prinzipiell nicht 
moglich ist, ausgehend vom Fragebogen den Befragten zu identifizieren. 1st 
eine Befragung nicht anonym, aber vertraulich, so ist die Identitat des Befrag- 
ten zwar bekannt, wird aber gegeniiber Dritten geheimgehalten (Dickson et al. 
1977). Wahrend die Zusicherung der Vertraulichkeit im Zusammenhang mit 
einer Befragung fast eine Selbstverstandlichkeit zu sein scheint, wird die Not- 
wendigkeit der Anonymitat unterschiedlich beurteilt. Fiir personlich miindli- 
che Befragungen wird sie hochstens fiir einzelne Fragen angestrebt (vgl. z.B. 
die in 2.3 erwiihnte ,Urnentechnik‘), obschon sie objektiv auch fiir das ganze 
Interview dadurch gewahrleistet werden konnte, daB ein Interviewer zahlrei- 
che Interviews durchfiihrt und auf die Kennzeichnung der Fragebogen ver- 
zichtet wird. Die fiir das Antwortverhalten der Vp einzig maBgebliche erlebte 
Anonymitat wird allerdings fiir personlich-miindliche Befragungen kaum zu 
erreichen sein. Demzufolge beschrankt sich die Diskussion auch auf schriftli- 
che, insbesondere unpersonlich-schriftliche, z.B. postalische Befragungen. 

Einige Autoren berichten fiir diese Befragungsform bedeutsame Beantwor- 
tungsunterschiede in Abhangigkeit von der Anonymitat bzw. Nicht-Anony- 
mitat der Befragten. Knudsen et al. (1967) fanden, daB in personlichen Befra- 
gungen restriktivere Normen betreffend den vorehelichen Geschlechtsverkehr 
vertreten wurden als in unpersonlichen und anonymen Befragungen. Auch 
Fuller (1974) und Bradburn & Sudman (1979) berichten Antwortverzerrungen 
nach MaBgabe sozialer Erwiinschtheit bei nicht-anonymer im Vergleich zu 
anonymer Befragung. Als Hinweise in dieser Richtung konnten auch die Er- 
gebnisse von Taietz (1972) angesehen werden, der bei der Befragung alterer 
Menschen nach ihren Lebensverhaltnissen erhebliche Verschiebungen in den 
Antworten dann erhielt, wenn eine dritte Person beirn Interview anwesend 
war (vgl. auch Bradburn & Sudman 1979). 
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Verzerrungen in genau entgegengesetzte Richtung fanden Epperson & Peck 
(1977) in einer Untersuchung zur Evaluation von Driver-Improvement-Pro- 
grammen (vgl. dazu Spoerer 1979). Hier fanden sich signifikant mehr negative 
Kommentare der Teilnehmer. wenn die Befragung nicht anonym durchgefiihrt 
wurde. Insgesamt sind die Nachweise bedeutsamer Antwortunterschiede in 
Abhangigkeit von der Anonymitat jedoch eher sparlich. Kepes & True (1967) 
und auch Fuller (1974) kommen bei der Sichtung empirischer Befunde zu dent 
Ergebnis, daB der EinfluB der Nicht- Anonymitat auf Antworten eher nur 
beflirchtet als real sei. Die erstgenannten Autoren sehen ihn - auBer in einigen 
ziemlich speziellen Situationen - vor allem dann, wenn die Vp eigens und 
explizit auf die Namentlichkeit hingewiesen wird. wozu in der Regel aber 
keine Notwendigkeit besteht. DaB den Vpn in vielen Fallen das Nicht-Vorlie- 
gen von Anonymitat bzw. Vertraulichkeit gar nicht bewuBt ist und der Ein- 
fluB von Anonymitat bzw. Vertraulichkeit zutreffend nur nach entsprechen- 
dem explizitem Hinweis abgeschatzt werden kann, betonen auch Futrell & 
Swan (1977). Sie fanden zwischen anonymer und nicht-anonymer, aber ver- 
traulicher postalischer Befragung keinerlei Unterschiede und sehen in der An- 
onymitat keine Vorteile, wenn Untersucher und Auftraggeber nicht identisch 
sind und den Vpn Vertraulichkeit zugesichert werden kann, Butler (1973) lieB 
Fragen. die sich unter anderem auf Drogenkonsum bezogen, von Experten 
hinsichtlich ihrer Anfalligkeit fur Antwortverzerrungen bei Verwendung in 
nicht-anonymer Befragung skalieren, bevor er sie Kadetten einer Militarakade- 
mie teils anonym, teils nicht-anonym zur Beantwortung vorlegte. Er fand bei 
Fragen, die die Experten als ,unempfindlich‘ eingestuft hatten, erwartungsge- 
maB keine Beantwortungsunterschiede, wider Erwarten unterschieden sich 
anonyme und nicht-anonyme Antworten aber auch bei den als ,empfindlich‘ 
klassifizierten Fragen nicht. Neben anderen mbglichen Erklarungen konnte 
auch hier die den nicht-anonym antwortenden Vpn gegebene Vertraulichkeits- 
zusage zur Vermeidung von Verzerrungen ausgereicht haben. Keine Unter- 
schiede zwischen anonymen und nicht-anonymen Antworten von Lehrern auf 
Fragen zur Beurteilung der Notwendigkeit gewerkschaftlicher Organisierung 
und der eigenen Streikbereitschaft fand auch Wildman (1977). Andererseits 
berichtet er aber, daB im Rahmen dieser postalischen Befragung 12% der 
nicht-anonymen Vpn die Identifikationsnummern auf ihren Antwortbogen 
vor der Rlicksendung unkenntlich gemacht hatten, was sich wohl nur auf ein 
Bediirfnis nach Anonymitat zuriickfuhren laBt. 

Einfllisse der Anonymitat auf den Riicklauf in unpersonlich-schriftlichen 
(postalischen) Befragungen sind nach Richter (1969) zwar je nach Zielpopula- 
tion unterschiedlich, insgesamt aber nicht ,durchschlagend\ Bei Bradburn & 
Sudman (1979) fanden sich geringe, bei Wildman (1977) keinerlei Unterschiede 
im Riicklauf zwischen anonym und nicht-anonym befragten Vpn. Fuller (1974) 
berichtet sogar - abweichend von der landlaufigen Erwartung - bei Nicht- 
Anonymitat einen hoheren Riicklauf (evil, ein Personalisierungseffekt, vgl. 5.). 
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Wahrend bei miindlichen und personlichen schriftlichen Befragungen auch 
andere Grlinde (z.B. die Notwendigkeit der Kontrolle von Interviewern) ftir 
den Verzicht auf Anonymitat in Betracht kommen, ist das Interesse an der 
Identifizierbarkeit der Befragten in unpersonlich-schriftlichen (postalischen) 
Befragungen weitgehend in dem Wunsch nach Kontrollierbarkeit und gezielter 
Beeinflussung des Riicklaufs begriindet. Einerseits sprechen Kostenerwagun- 
gen, andererseits aber auch die Gefahr von Doppel-Beantwortungen dagegen, 
die Fragebogen mehrfach an alle Vpn zu verschicken. Die Moglichkeit einer 
gezielten Erinnerung der Nicht-Beantworter besteht aber natiirlich nur bei 
Identifizierbarkeit der Rlicklaufe. Urn dennoch die vermuteten Vorteile der 
Anonymitat nutzen zu konnen, hat in den USA die unsichtbare Kennzeich- 
nung der Fragebogen eine weite Verbreitung gefunden, eine Praxis, die aus 
ethischen und juristischen Griinden zweifellos abzulehnen ist (vgl. Dickson et 
al. 1977). Alternativen, die eine Kontrolle der Riicklaufe trotz strikter Anony- 
mitat gestatten, beschreibt z.B. Wieken (1974). So kann man dem Fragebogen 
eine mit der Adresse der Vp als Absender versehene frankierte Postkarte beifii- 
gen und die Vp bitten, diese gleichzeitig mit, aber getrennt von dem nicht 
gekennzeichneten Fragebogen zurlickzuschicken, damit der Untersucher 
weiB, daB, aber nicht was sie geantwortet hat (Linsky 1975). 



6.2 Spezielle Probleme bei unpersonlich-schriftlichen 
Befragungen 

Unpersonlich-schriftliche Befragungen sind dadurch gekennzeichnet, daB ein 
Fragebogen in Abwesenheit des Interviewers bearbeitet wird. Der Fragebogen 
kann dem Befragten personlich iibergeben oder z.B. mit der Post zugeschickt 
worden sein. Diese letztgenannte Form der Befragung, die sogenannte postali- 
sche Befragung, erfreut sich aus mehreren Griinden vergleichsweise groBer 
Beliebtheit. deren wichtigster die relativ geringen Kosten sein diirften (Stro- 
schein 1965, Richter 1969, Goode & Hatt 1972, Wieken 1974). Allerdings sind 
zum Zwecke einigermaBen akzeptabler Stichprobenausschopfungen fast irn- 
mer mehrere Befragungswellen oder Erinnerungsschreiben notwendig, so daB 
den niedrigen Kosten ein vergleichsweise hoher Zeitbedarf (selten weniger als 
6-8 Wochen, vgl. z.B. Buchner 1968) ftir die Datenerhebung gegenubersteht. 
Einerseits eignet sich die Methode damit ftir die Gewinnung aktueller Daten 
prinzipiell nicht, andererseits ist sie besonders anfallig gegeniiber unvorherge- 
sehenen, wahrend der langen Erhebungsphase wirksam werdenden Einflussen 
(z.B. Veroffentlichungen zum Thema). 

Sachliche Vorteile der postalischen Befragung liegen ftir bestimmte Fragestel- 
lungen (wie bei alien schriftlichen Befragungsformen) in ihrem unpersonlichen 
und gegebenenfalls anonymen Charakter, der Antwortverzerrungen etwa nach 
MaBgabe sozialer Erwlinschtheit weniger wahrscheinlich macht (Trankle 
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1974) . So berichtet etwa Friedrich (1970), daB Antworten in schriftlichen Be- 
fragungen weniger stark gesellschaftlichen Normen entsprechen als in miindli- 
chen Interviews. Metzner & Mann (1952) erhielten fur die Zufriedenheit von 
Arbeitnehmern mit ihren Vorgesetzten in schriftlichen verglichen mit miindli- 
chen Befragungen unglinstigere Antworten. Auch Linsky (1975) sieht in der 
geringeren sozialen Kontrolle, der das Antwortverhalten unterliegt, einen we- 
sentlichen Vorteil der schriftlichen Befragung. 

Weitere Vorteile konnen - je nach Fragestellung und Zielpopulation - auch 
darin liegen, daB zur Beantwortung der Fragen Unterlagen herangezogen wer- 
den und an der Beantwortung mehrere Personen mitwirken konnen (Linsky 

1975) . In den meisten Fallen aber wird die bei der unpersonlichen Befragung 
prinzipiell fehlende Moglichkeit der Kontrolle von Beantwortungsperson, Be- 
antwortungssituation, Beantwortungszeitpunkt und Reihenfolge der Beant- 
wortung der Fragen als Nachteil betrachtet werden miissen. 

Ein noch gravierenderer Nachteil der unpersonlichen, meist postalisch durch- 
gefilhrten Befragung liegt in den relativ hohen Anforderungen, die sie an die 
Befragten stellt und die mindestens fiir den Teil der Bevolkerung, den Scheuch 
(1973) den .funktionellen Analphabeten‘ zuordnet, zu hoch sein diirften. 

Auch Kreutz & Titscher (1974, 60) stellen fest, daB in weiten Kreisen der 

Bevolkerung Angst vor Rechtschreibfehlern und Schwierigkeiten bei der 
schriftlichen Formulierung bestehen . . und halten mindestens offene Fragen 
in unpersonlich-schriftlichen Befragungen dann fiir kontraindiziert, wenn die 
Zielpopulation nicht z.B. durch Bildung bzw. Beruf sprachlich besonders 
geiibt ist. 

Da der Riicklauf in postalischen Befragungen positiv mit der sozialen Schicht, 
dent Bildungs-, Berufs- und Einkommensniveau korreliert (z.B. Richter 1967, 
1969, Goode & Hatt 1972, Wieken 1974, Binder et al. 1979), ist bei inhomoge- 
nen Stichproben (z.B. Bevolkerungsstichproben) mit systematischen Verzer- 
rungen dadurch zu rechnen, daB Angehorige unterer sozialer Schichten mit 
niedrigem Bildungs-, Berufs- und Einkommensniveau in der Gruppe der ant- 
wortenden Vpn unterreprasentiert sind. Unpersonlich-schriftliche (postali- 
sche) Befragungen sollten deshalb nur fiir homogene lese- und schreibgewand- 
te Populationen in Betracht gezogen werden. Nach Kish & Barnes (1973) 
eignet sich die postalische Befragung auBerdem nicht fiir Befragungsinhalte. 
die in der Zielpopulation kontrovers eingeschatzt werden: Der Riicklauf er- 
wies sich als umgekehrt proportional der Strittigkeit der Inhalte. 

Auch wenn z.B. Me Donagh & Rosenblum (1965) in einer miindlichen Nach- 
befragung von Antwortern und Nicht- Antwortern einer vorangegangenen 
postalischen Befragung keinerlei Beantwortungsunterschiede feststellen konn- 
ten und deshalb annehmen, das Problem der Irreprasentativitat der Antworter 
fiir die gesamte Population werde iiblicherweise iiberschatzt, laBt sich die 
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Gefahr der Irreprasentativitat natlirlich nie prinzipiell ausschlieBen, Binder et 
al. (1979) etwa fanden betrachtliche Unterschiede zwischen Antwortern und 
Nicht-Antwortern in demographischen und Personlichkeitsmerkmalen. Es ist 
deshalb von besonderer Wichtigkeit, durch geeignete Anlage der Untersu- 
chung (z.B. Vorkontakten der Vpn; Gestaltung von Begleitschreiben, Frage- 
bogen; Riickumschlag; mehrfache Erinnerungsschreiben) f Ur eine moglichst 
hohe Stichprobenausschopfung zu sorgen. Entsprechende Hinweise und em- 
pirische Ergebnisse finden sich z.B. bei Richter (1969). Alutto (1970), Erdos 
(1970). Hendrick et al. (1972), Kish & Barnes (1973), Wieken (1974) und 
Sieber (1979). Linsky (1975) hat eine ausfiihrliche Zusammenstellung empiri- 
scher Befunde zur Frage der BeeinfluBbarkeit des Riicklaufs erarbeitet, die 
u.a. erkennen laBt, daB es kaum Befunde betreffend den EinfluB der Gestal- 
tung des Fragebogens auf den Riicklauf gibt (vgl. 5.). 

Neben und evtl. zusatzlich zu dem Bemiihen um einen moglichst hohen Rttck- 
lauf werden gelegentlich auch Korrekturen der Ergebnisse zum Ausgleich etwa 
bestehender Irreprasentativitat vorgenommen. Solche Korrekturen beruhen 
natlirlich auf Annahmen betreffend das potentielle Antwortverhalten der 
Nicht-Antwortenden. Meist gehen sie davon aus, daB die Vpn. die zuletzt 
geantwortet haben, ,Beinahe-Nicht-Antworter‘ sind, und verwenden deren 
Antwortverhalten zur Schatzung des Verhaltens der Nicht- Antworter. Evtl. 
wird auch versucht, einen Trend, der sich im Antwortverhalten von den friihe- 
sten zu den letzten Rucklaufen hin zeigt, auf die Nicht-Antworter zu extra- 
polieren. Uberlegungen zur Reprasentativitatskorrektur finden sich u.a. bei 
Richter (1967, 1969), Buchner (1968), Erdos (1970) und Wieken (1974). 



6.3 Erprobung und Uberarbeitung des Fragebogenentwurfs 

Itemanalysen, Itemselektion und Konstruktion abgeleiteter Variabler (z.B. 
Summierung von Antworten) erfolgen bei diagnostischen Fragebogen wie bei 
jedem Test auf der Grundlage eines bestimmten MeBmodells und Validitats- 
konzeptes (vgl. z.B. Lienert 1969. Fischer 1974. Wottawa 1980). Dariiber 
hinaus sind jedoch auch fragebogenspezifische Giitekriterien (Verstehbarkeit, 
Ambiguitat, soziale Erwlinschtheit der Items) und Eigentumlichkeiten (z.B. 
veranderte Bedeutung der Itemschwierigkeit) zu beachten (Janke 1973). Hier- 
auf soil an dieser Stelle nicht naher eingegangen werden. 

Bei Fragebogen mit sozialwissenschaftlicher bzw. demoskopischer Zielset- 
zung wird die Notwendigkeit des Pretests (Karmasin & Karmasin 1977 for- 
dern daflir sogar 100 Vpn) und der Revision des Fragebogens zwar allgemein 
anerkannt bzw. hervorgehoben, doch charakterisieren Cannell et al. (1977, 27) 
die in der Praxis iibliche Vorgehensweise (in der Ubersetzung des Verfassers) 
folgendermaBen: 
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,,Normalerweise erstellt man den Fragebogenentwurf am Schreibtisch und 
schickt dann eine Gruppe von Interviewern damit ins Feld. Danach gibt es eine 
Konferenz (oder eine Serie von Konferenzen), auf der Forscher und Inter- 
viewer den Fragebogen diskutieren. Man hort dabei Aussagen wie . . diese 
Frage scheint gut zu funktionieren . . . ‘ oder der Interviewer sagt: .... Ich glau- 
be nicht, daB die Befragten diese Frage wirklich verstanden haben . . Auf der 
Grundlage derart subjektiver Bewertungen werden Fragebogen iiblicherweise 
entwickelt.“ Selbstverstandlich konnen die Erfahrungen der Interviewer einen 
wichtigen Beitrag zur Revision des Fragebogens leisten, nur sollte es nicht 
deren einzige Grundlage sein. Guski et al. (1978) beschreiben beispielhaft die 
Konstruktion eines sozialwissenschaftlichen Fragebogens zur Erfassung von 
Auswirkungen des Umweltlarms. Ausgehend von den Ergebnissen einer Vor- 
studie (Explorationen mit 30 Vpn), von einer Inhaltsanalyse der Beschwerden 
iiber Larmbelastigung. die bei Behorden eingegangen waren, und von bereits 
existierenden Fragebogen zum Thema wurde ein Fragebogenentwurf erstellt 
und einem Pretest an 40 Vpn unterworfen. Statistische Itemanalysen (dazu 
konnen wie bei der Konstruktion diagnostischer Fragebogen u.a. Vertei- 
lungs-, Schwierigkeits-, Trennscharfe- und Interkorrelationsanalysen geho- 
ren; vgl. Berk & Griesemer 1976) und Interviewererfahrungen bildeten die 
Grundlage einer Revision des Fragebogens filr die Hauptuntersuchung an liber 
600 Vpn. Damit waren die methodologischen Bemiihungen um den Fragebo- 
gen allerdings nicht abgeschlossen, vielmehr wurden die Definitionen abgelei- 
teter Variabler (z.B. die Summierungen von Reaktionen auf verschiedene 
Items) mit den Daten der Hauptuntersuchung (zur Priifung der Stabilitat ge- 
genliber einer Variation der Stichprobe meist getrennt fiir zwei Zufallshalften 
der Stichprobe) jeweils empirisch abgesichert, vor allem mittels Cluster- und 
Faktorenanalysen. Wegen der hierfiir erforderlichen hohen Vpn-Zahl ware es 
unrealistisch, solche Analysen schon im Stadium des Pretests zu verlangen, 
vielmehr wil'd man die Fragebogenkonstruktion und -Uberpriifung als einen 
ProzeB auffassen miissen, der nie abgeschlossen, sondern hochstens abgebro- 
chen werden kann. 

Die Aufgaben, die der Pretest erfiillen kann und erfiillen muB, niimlich die 
Uberpriifung von Fragenformulierungen, Fragebogenaufbau und -gestaltung. 
werden um so wichtiger, je weniger Kompensationsmoglichkeiten fiir Mangel 
des Fragebogens in der Befragungssituation selbst vorhanden sind. Von beson- 
derer Bedeutung ist die Erprobung des Fragebogens demnach fiir alle nicht- 
personlichen Befragungen, also besonders fiir die postalische Befragung. Rich- 
ter (1969) spricht in diesem Zusammenhang von der Notwendigkeit, den Fra- 
gebogen im ,Putzfrauentest‘, d.h. durch Anwendung bei den sprachlich und 
intellektuell am wenigsten differenzierten Vpn der Zielpopulation zu er- 
proben. 

Fiir diagnostische Fragebogen mit langerer Lebensdauer sind - wie fiir jeden 
Test - kontinuierliche Kontrolluntersuchungen erforderlich (Lennertz 1973). 
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So weist z.B. Strong (1962) auf die Notwendigkeit hin, veraltende Inhalte von 
Items (Personlichkeiten, Buch- und Filmtitel etc.) entweder grundsatzlich zu 
meiden oder aber haufigere Revisionen und Aktualisierungen der Fragebogen 
durchzufuhren. Ash & Edgell (1975) demonstrierten die Nichtiibereinstini- 
mung des sprachlichen Niveaus des Position-Analysis-Questionnaire (PAQ) 
von Me Cormick (vgl. Me Cormick et al. 1965) mit demjenigen der tatsachli- 
chen Anwender und machten deutlich, daB auch Anderungen der Zielpopula- 
tion in Rechnung zu stellen sind. 

Die Kontrolle des Fragebogenentwurfs muB sich sodann natiirlich auf Fragen 
der Reliabilitat und Validitat (bzw. Generalisierbarkeit im Sinne von Cron- 
bach et al. 1972) erstrecken. Wie fur alle Tests so ist auch fur diagnostische 
Fragebogen unbestritten, daB Aussagen iiber ihre Giite nur in bezug auf ein 
bestimmtes MeBmodell, auf ein bestimmtes Validitatskonzept und evtl. auf 
eine bestimmte Population moglich bzw. sinnvoll sind. Ebenso ist es flir so- 
zialwissenschaftliche bzw. demoskopische Anwendungen abwegig, die Quali- 
tat von Fragebogenerhebung bzw. Interview allgemein feststellen zu wollen, 
wie dies etwa Friedrich (1963, 1966) und Forster (1967) flir schriftliche und 
Fisseni (1974) flir miindliche Befragungen zu tun versuchen (vgl. auch Sieber 
1979). Aussagen sind auch hier nur moglich flir die Methode bezogen auf einen 
Gegenstand und eine bestimmte Population. Bei miindlichen und persdnlich- 
schriftlichen Befragungen sind auBer deni Fragebogen die Interviewer, bei 
unpersonlich-schriftlichen Befragungen die Techniken und der Grad der Stich- 
probenausschopfung zentrale Bestandteile der Methode. Nachweise hoher 
Objektivitat, Reliabilitat und Validitat stellen hier bestenfalls Existenzbeweise 
dar. 



7 . Zukiinftige Entwicklung im Bereich der 
Fragebogenkonstruktion 

Uni je nach gewahltem Validitatskonzept und MeBmodell (vgl. 1.1.2) die Kon- 
zeption einer Frage auf empirisch gesicherter Basis entwickeln zu konnen, ist 
es erforderlich. das Wissen liber den BeantwortungsprozeB und die Determi- 
nanten der Antwort (vgl. 1.2) zu erweitern. Erhebliche Wissensllicken beste- 
hen sodann im Bereich der sprachlichen Formulierung der Frage (3.2), der 
Fragenreihenfolge (4.) und vor allem der Auswirkungen der auBeren Gestal- 
tung des Fragebogens (5.) auf das Beantwortungsverhalten. 

Fur demoskopische (sozialwissenschaftliche) Fragebogen zeichnet sich durch 
die leichtere Verfligbarkeit elektronischer Datenverarbeitungsanlagen ein Ver- 
schwinden des flir alle Vpn einheitlichen Fragebogens zugunsten einer groBe- 
ren Zahl von Fragebogenvarianten mit variierter Reihenfolge der Fragen. vari- 
ierten Frageformulierungen, variierter auBerer Gestaltung bis hin zum indivi- 
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dualisierten und moglicherweise personalisierten Fragebogen ab (Perreault 
1975). Dabei ist es durchaus auch mdglich, unter Verwendung von Vorinfor- 
mationen liber den Befragten eine ganz spezielle Fragenzusammenstellung zu 
konzipieren und damit Filterungen und Verzweigungen, wie sie in traditionel- 
len Fragebogen erforderlich sind. entbehrlich zu machen, was besonders flir 
unpersonlich-schriftliche (postalische) Befragungen die moglichen Befra- 
gungsinhalte erheblich ausweiten diirfte. Darliber hinaus lassen sich unter 
Nutzung elektronischer Datenverarbeitungsanlagen Fragenpools aufbauen, 
die eine rasche Ad-hoc-Konstruktion von Fragebogen flir bestimmte Anwen- 
dungen ermoglichen (Doyle & Wattawa 1977). 

Inwieweit neue elektronische Medien, wie Videotext und Telekommunika- 
tion, auch die Durchfiihrung von Befragungen nachhaltig verandern werden, 
ist derzeit nicht abzuschatzen. In Anlehnung an die Erfahrungen mit Telefon- 
Interviews ist jedoch zu vermuten, daB es das Bildschirm-Interview flir be- 
stimmte Untersuchungen geben wird, daB es die traditionellen Befragungsfor- 
men jedoch nicht wird verdrangen konnen. 

Die statistische Auswertung von Fragebogendaten, die heute noch iiberwie- 
gend einzelfragenorientiert erfolgt, wird sich zunehmend der angemesseneren 
multivariaten Analyse- und Testverfahren bedienen (vgl. Whitney & Feldt 
1973). 

Im Bereich diagnostischer Fragebogen werden sich die test- und meBtheoreti- 
schen Grundlagen weiterentwickeln. Dabei diirfte einerseits deni ordinalen 
Charakter von Fragebogendaten starker Rechnung getragen, andererseits diirf- 
ten aber auch Versuche unternommen werden, die Datenqualitat in Richtung 
auf metrische Eigenschaften zu verbessern. Dabei haben mehrkategorielle 
probabilistische Modelle gerade flir Fragebogen groBe Bedeutung. 

Erhebliche Moglichkeiten scheinen auch in der Anwendung der Methoden 
individualisierten (antwortabhangigen) Testens im Falle von Fragebogen zu 
liegen; Versuche in dieser Richtung beschreibt z.B. Hornke (1979). In gewis- 
ser Hinsicht handelt es sich dabei uni die Realisierung der auch flir demoskopi- 
sche Fragebogen gebrauchlichen Techniken der Filterung und Verzweigung: 
Wahrend in einem herkommlichen diagnostischen Fragebogen jeder Proband 
alle Fragen zu bearbeiten hat, werden beim antwortabhangigen Test diejenigen 
Items nicht dargeboten, die zur (zuverlassigen) Schatzung des Ortes des Pro- 
banden auf der interessierenden Dimension nichts Wesentliches beitragen. 

AuBer zur Datengewinnung im Bereich sozialwissenschaftlicher Fragestellun- 
gen und zu diagnostischen Zwecken sind Fragebogen auch mit deni Ziel der 
Anderung von Einstellungen (Dillehay & Jernigan 1970) und mit therapeuti- 
scher Intention als Hilfsmittel bei der Selbsterfahrung (Hendrix 1978) einge- 
setzt worden. Es ist schwer abzuschatzen, ob sich diese Anwendungen bewah- 
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ren und vermehren und ob sich weitere Einsatzmoglichkeiten eroffnen 
werden. 

Umgekehrt diirften Fragebogen uberall dort ihre Berechtigung verlieren, wo 
direktere und objektivere Methoden der Datengewinnung verfiigbar werden. 
So konnen bestimmte Daten aus diagnostischen Fragebogen moglicherweise 
durch physiologische Messungen ersetzt werden: Statt nach Schlafqualitat zu 
fragen, kann man sie u.U. dem EEG entnehmen. Demoskopische bzw. sozial- 
wissenschaftliche Fragebogen diirften in den Bereichen entbehrlich werden, in 
denen vorhandene Dateien abgefragt werden konnen (z.B. muB der Fiihrer- 
scheinbesitz z.Z. noch durch Befragung erhoben werden, nach Aufbau einer 
entsprechenden Datei wiirde diese Notwendigkeit entfallen). 

Fur die ini Bereich der Diagnostik wie der sozialwissenschaftlichen Datenerhe- 
bung wichtigen Beurteil ungen und Bewertungen durch Personen sind zwar 
Alternativen zur hergebrachten Form des Fragebogens, nicht aber zur Metho- 
de der Befragung erkennbar. 
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1. Be griff ski dr ung und Ubersicht 

Die Befragung ist ein Spezialfall von Kommunikation, die in Abhebung vom 
Alltagsverstandnis durch ihre wissenschaftliche Zielsetzung, den Grad der 
Strukturierung und Standardisierung sowie durch die damit verbundene Situa- 
tionsdefinition charakterisiert ist, welche mit einer asymmetrischen Sozialbe- 
ziehung und einer einseitigen Verwertung der gewonnenen Information ein- 
hergeht. Das Methodenarsenal der Psychologie ist teilweise mit deni der empi- 
rischen Sozialforschung identisch, so daB insbesondere bei der Erorterung der 
Befragungsmethode auf die Erfahrungen mit der soziologisch orientierten 
Umfrageforschung zuriickgegriffen werden kann. Innerhalb dieser. Methode 
wird ublicherweise zwischen Interview und schriftlicher Befragung unter- 
schieden. Scheuch (1973, 70) definiert: ,,Unter Interview als Forschungsinstru- 
ment sei hier verstanden ein planmaBiges Vorgehen mit wissenschaftlicher 
Zielsetzung, bei dem die Versuchsperson durch eine Reihe gezielter Fragen 
oder mitgeteilter Stimuli zu verbalen Informationen veranlaBt werden soll.“ 
Die schriftliche Befragung gilt bei ihm lediglich als Sonderform des Interviews 
(vgl. auch Atteslander 1969), wahrend zum Beispiel bei Friedrichs (1973) beide 
Formen als eigenstandige Methoden abgehandelt werden. Bei Verwendung der 
Befragung als Oberbegriff gelten folgende Merkmale. Es handelt sich meist um 
ein theoriegeleitetes, zumindest aber zielgerichtetes und regelhaftes Vorgehen 
der Datengewinnung; die Befragten werden entweder durch eine systemati- 
sche Gesprachsoperation oder durch einen schriftlichen Fragenkatalog zu In- 
formationsverarbeitungsprozessen veranlaBt, deren Resultat entweder verbal 
oder durch Antwortsymbole dem Forscher zur Verfiigung gestellt wird. Defi- 
nitionsgemaB sind damit andere Forschungsmethoden wie Experiment, Beob- 
achtung und Inhaltsanalyse ausgeschlossen, was jedoch in der Forschungspra- 
xis haufig durch Methodenvarianten und Methodenkombinationen wieder 
aufgehoben wird. Die begriffliche Abgrenzung der Befragung von anderen 
Methoden hat lediglich eine ordnungsstiftende und heuristische Funktion. 
Nicht eindeutig ist die Abgrenzung der Befragung von den Test- und Schatz- 
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verfahren, wozu auch die Personlichkeitsfragebogen gezahlt werden. Vom zu 
erfassenden Gegenstand her gesehen konnte man den Ubergang von Meinun- 
gen zu dispositionalen Einstellungen als Nahtstelle der Verwendung der Befra- 
gung und des Personlichkeitsfragebogens ansehen. Formal lieBe sich diese 
Trennung durch nicht skalierte Auswertung bei der Befragung und skalierte 
Auswertung bei Tests oder testahnlichen Verfahren unterstiitzen. Damit ware 
die Befragung im allgemeinen eine direkte Methode, die sich mit der Ebene der 
vorgefundenen beziehungsweise im ForschungsprozeG erzeugten Daten be- 
gniigt und auf die Schatzung latenter Merkmale verzichtet. Diese Auffassung 
laBt sich auch mit der gangigen Forschungspraxis begriinden, wie sie in der auf 
Fakten und Meinungen gerichteten Umfrageforschung unter soziologischen 
Fragestellungen iiblich ist. Filr die Erfassung von iiberdauernden Einstellun- 
gen und anderen latenten Verhaltensdispositionen verfilgt die Psychologie oft 
iiber bessere Methoden. Fiir die Erfassung von Kognitionen dagegen, die auf- 
grund ihrer Einmaligkeit, ProzeBhaftigkeit und Situationsspezifitiit mit ande- 
ren Instrumenten kaum zuganglich sind, erscheint die relativ anspruchsarme 
Befragungsmethode meist als vorteilhaft. Die psychologische Forschung nutzt 
hier vor allem das mundliche Interview als adaptive Gesprachsoperation, so- 
wie methodische Varianten wie zum Beispiel das klinische Interview oder die 
Technik der kritischen Ereignisse (critical incidents technique). Grundsatzlich 
gilt, daB reine Formen der Befragung, wie sie in der empirischen Sozialfor- 
schung iiblich sind, in der Psychologie seltener anzutreffen sind. Allerdings ist 
hier zu unterscheiden zwischen der psychologischen Forschung mit dem Ziel 
der Gewinnung generalisierbarer Erkenntnisse und der angewandten psycho- 
logischen Diagnostik mit dem Ziel indirekter Erfassung des Verhaltens und 
Erlebens. In der Diagnostik spielen Befragungsmethoden wie Anamnese und 
Exploration eine wichtige Rolle. 

Wichtige Abgrenzungskriterien innerhalb der Vielzahl von Methodenvarian- 
ten sind die Strukturierung und die Standardisierung. Die Strukturierung be- 
trifft den Aufbau der Befragung und laBt sich charakterisieren durch die An- 
ordnung und den Grad der Geschlossenheit der Frage. Die Standardisierung 
betrifft die inhaltliche Vergleichbarkeit der Befragung und komrnt in der 
gleichlautenden Frageformulierung und deren Reihenfolge filr eine Mehrzahl 
von Befragten zum Ausdruck. Befragungen, die zugleich hoch standardisiert 
und hoch strukturiert sind, findet man zum Beispiel bei schriftlichen Massen- 
umfragen (Surveys), bei denen die Fragebogen entweder liber den Postversand 
oder durch Vorgabe in geschlossenen sozialen Einheiten (z.B. Schulen) in die 
Hande der Befragten gelangen. Eine niedrige Standardisierung findet man oft 
bei miindlichen Einzelinterviews, die entweder niedrig strukturiert (z.B. Ex- 
ploration) oder hoch strukturiert (z.B. Erfassung bestimmter Denkprozesse) 
angelegt sein konnen. In manchen Fallen gentigt ein Interviewleitfaden mit 
einigen Schliisselfragen. Eine weitere Unterscheidung liegt in der informatori- 
schen, analytischen und diagnostischen Befragung (van Koolwijk 1974). Die 
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informatorische Befragung ist auf die Erhebung von Fakten gerichtet, ttber die 
der Befragte als Informant bzw. Experte Auskunft geben kann. Die forensi- 
sche Psychologie hat es bei der Zeugenaussage mit dieser Form zu tun (Arnt- 
zen 1970), die im allgemeinen wenig strukturiert und wenig standardisiert ist. 
Die analytische Befragung dient der Erfassung sozialer oder psychischer Ge- 
genstande aus der Sicht der Befragten. Hoch standardisierte und hoch struk- 
turierte Umfragen gehoren dazu. Die diagnostische Befragung soil iiber die 
aktuellen und biographischen Aspekte der Personlichkeit des Klienten Auf- 
sehluB geben, was mit Hilfe von Explorationen, Anamnesen und klinischen 
Interviews erreicht wird, die wenig standardisiert und wenig strukturiert sind. 

Die instrumentellen Eigenschaften des Fragebogens oder Interviews hangen 
von der jeweiligen Konzeption der Befragung ab. Geht man informatorisch 
vor, liefert der Wahrheitsgehalt der Information den MaBstab fiir die Validitat. 
Geht man diagnostisch vor, wird die Angemessenheit der Aussagen im Hin- 
blick auf tatsachliches Verhalten und Erleben der Klienten zu priifen sein. 
Beirn analytischen Vorgehen bietet es sich an, die Giitekriterien gemaB den 
Regeln der Testtheorie zu priifen. Von besonderer Bedeutung ist die Uberle- 
gung, einen zu erfassenden Gegenstand mit Hilfe multipler Indikatoren zu 
untersuchen. Will man zum Beispiel erforschen, inwieweit jemand glaubt, mit 
seinen personlichen Problemen fertig zu werden, ist es nicht sinnvoll, nur eine 
einzige Frage zu stellen oder auf eine einzige Aussage reagieren zu lassen. Bei 
einer Mehrzahl von Indikatoren besteht eher eine hinreichende Wahrschein- 
lichkeit dafiir, das Konstrukt valide erfassen zu konnen. Fragt man dagegen 
nach der Parteizugehorigkeit oder Kinderzahl, reicht ein Indikator. Die Uber- 
priifung der instrumentellen Eigenschaften bei Verwendung multipler Indika- 
toren laBt sich auf dem Wege iiber Strukturgleichungssysteme vornehmen 
(Joreskog & Sorbom 1978), in denen jeder Indikator als beobachtete und jedes 
Konstrukt als latente Variable eingeht. Mit Hilfe der konfirmatorischen Fakto- 
renanalyse laBt sich zum Beispiel das MeBmodell priifen, indent zu jeder laten- 
ten GroBe die theoretisch relevanten Indikatoren als kongenerische Variablen 
definiert werden. Wenn die Daten mit dem Modell vertraglich sind, verfiigt 
das Instrument iiber die erwiinschten Eigenschaften. Der Ansatz laBt sich 
erweitern zu einem kombinierten MeB- und Kausalmodell wie zum Beispiel 
der Pfadanalyse mit latenten Variablen. Eine solche Vorgehensweise erscheint 
jedoch nur bei hoch standardisierten und hoch strukturierten Befragungen 
sinnvoll. Methodisch gibt es hier keinen Unterschied zu der Behandlung der 
instrumentellen Eigenschaften bei Personlichkeitsfragebogen, die normaler- 
weise dem Bereich der Test- und Schatzverfahren zugeordnet werden. 

Zur Begriffsklarung gehort schlieBlich auch der zeitliche Aspekt bei der An- 
wendung der Befragungsmethode. In den meisten Fallen handelt es sich um 
Querschnittuntersuchungen, die innerhalb einer begrenzten Zeitspanne erfol- 
gen. Bei einem langsschnittlichen Vorgehen ist zu unterscheiden zwischen der 
Panelstudie und der Trendstudie. Bei der Panelstudie werden dieselben Perso- 
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nen wiederholt befragt, wahrend bei der Trendstudie zu jedem MeBzeitpunkt 
eine neue Stichprobe aus der ursprlinglichen Population gezogen wird. In der 
Entwicklungspsychologie sind gegebenenfalls komplexere Versuchsplane von 
Vorteil, bei denen mehrere Panelstudien an verschiedenen Kohorten gleichzei- 
tig durchgefiihrt werden (Baltes 1979). 



2. Forme n und P rob l erne der Befragung 

2.1 Schriftliche Befragung 

2.1.1 Vor- und Nachteile 

Die miindlichen und schriftlichen Fragenvorgaben stellen die beiden Grund- 
formen dar, wobei letztere zumeist als postalische Befragung verstanden wird 
(Bailey 1978). In der deutschen soziologischen Literatur wird dagegen die 
schriftliche Befragung meist nur als Sonderform des Interviews angesehen (At- 
teslander 1969, Scheuch 1973. Wieken 1974). 

Die schriftliche Befragung verfligt iiber einige Vorteile. (1) Kostenersparnis. Da 
Herstellung und Versand von Fragebogen nur mit geringem Personalaufwand 
verbunden sind, ergibt sich im Vergleich zur personalintensiven - und 
manchmal reisekostenintensiven - miindlichen Befragung eine oft erhebliche 
Kostenersparnis, die auch bei besonders attraktiver Ausstattung des Materials 
giinstig zu Buche schlagen kann. Es ist jedoch bei der Kalkulation zu berlick- 
sichtigen, daB bei extrem niedriger Riicklaufquote betrachtliche Porto- und 
Materialkosten ungenutzt bleiben. (2) Zeitersparnis. Wenn die Verfiigbarkeit 
der Untersuchungsergebnisse eilbedlirftig ist, ergeben sich mit dieser Befra- 
gungsform Vorteile, da alle Befragten die Unterlagen gleichzeitig erhalten kon- 
nen und man schon nach wenigen Tagen mit Beginn des Riicklaufs die Uber- 
tragung auf maschinenlesbare Datentrager beginnen kann. (3) Bequemlichkeit 
fur den Befragten. Der Adressat kann sich Zeitpunkt und Umgebung fur die 
Beantwortung des Fragebogens selbst auswahlen. (4) Anonymitat. Durch die 
Abwesenheit einer fragenden Person laBt sich das Vertrauen in die zugesicher- 
te Anonymitat erhohen. (S) Kein Interviewereinflufi. Die systematischen Feh- 
ler, die beim miindlichen Interview als Elemente der sozialen Interaktions- 
situation auftreten, sind hier ausgeschaltet. (6) Standardisierung. Die schriftli- 
che Vorgabe impliziert identische Frageformulierungen fill' alle Befragten. so 
daB durch gleiche Bedingungen die Durchfiihrungsobjektivitat gefdrdert wird. 
wenn auch konnotative Unterschiede insbesondere bei Begriffen mit semanti- 
scher Mehrdeutigkeit fur Subpopulationen nicht auszuschlieBen sind. (7) In- 
formationssuche. Der Befragte hat Zeit und Ruhe, um Fragen langer zu durch- 
denken und sich der Richtigkeit seiner Antworten zu vergewissern. So kann er 
bei Fragen, die sich zum Beispiel auf Fakten in seiner Biographie beziehen. 
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Angehorige konsultieren. Allerdings werden hier durch manche Fragen langer 
dauernde Reflexionsprozesse stimuliert, die zu Antworten ftthren, welche oh- 
ne das Forschungsinstrument nicht zustande gekommen waren. Diese Reakti- 
vitat kann entweder als unerwiinschtes Untersuchungsartefakt oder als er- 
wiinschte Subjektveranderung in Flandlungsforschungsprojekten aufgefaBt 
werden. (8) Zugangliclikeit. Regional verstreut lebende Adressaten werden vor 
allem unter dem Zeit- und Kostengesichtspunkt am besten durch postalische 
Befragung zuganglich. 

Andererseits sind schwerwiegende Nachteile der schriftlichen Befragung zu 
verzeichnen. (1) Riicklauf quote. Die Zahl der ausgefullt zuriickgesandten Fra- 
gebogen ist manchmal sehr gering, und ein Anteil von SO% wird schon als 
angemessen bezeichnet (Babbie 1973). Damit kann zugleich eine Stichproben- 
verzerrung gegeben sein. Versuche, solche Verzerrungen aufzudecken, richten 
sich meist auf die Priifung der Verteilung einfacher Merkmale (z.B. Ge- 
schlecht) in der Reststichprobe. Die theoretisch wichtige Frage nach einer 
Stichprobenverzerrung im Hinblick auf den Untersuchungsgegenstand selbst 
dttrfte jedoch nicht zu beantworten sein. Weiterhin bleibt ungeklart, welche 
Ausfalle auf Adressenfehler oder auf absichtliche Nichtbeantwortung zuriick- 
zufiihren sind. (2) Unvollstandigkeit. Mangels der Kontrolle eines anwesenden 
Interviewers werden viele Fragen nicht beantwortet. Statt dessen bringt der 
Befragte seinen ungedampften Zorn iiber miBverstandene oder provokante 
Fragen durch an den Rand geschriebene Schimpfworter zum Ausdruck. Bei 
der statistischen Auswertung kann es somit zu einem verheerenden Daten- 
schwund kommen, falls es erforderlich ist, Prozeduren mit fallweisem Aus- 
schluB zu verwenden. (3) Unkontrollierbarkeit der Erhebungssituation. Man 
kann nicht sicher sein, ob wirklich die angeschriebene Person oder jemand 
anders den Fragebogen ausflillt. AuBerdem konnen situative Merkmale wie 
Ablenkung durch Larm oder Kontaktpersonen die Validitat einschranken. 
Damit verbunden ist die fehlende Kontrolle iiber die Wahl der Reihenfolge 
und den Zeitpunkt der Bearbeitung der Fragen. (4) Unsichtbarkeit. Es erfolgt 
eine Reduktion auf Verbalverhalten beziehungsweise abstrakt-symbolische 
Handlungsergebnisse (Ankreuzen), wahrend nonverbales Verhalten, welches 
in der miindlichen Interviewsituation Validitatshinweise geben kann, aufgrund 
der Unsichtbarkeit des Befragten ausgeschlossen wird (Scherer 1974). Auch 
SpontanauBerungen bleiben unerfaBt. (5) Keine Flexibilitat. Es ist kein Inter- 
viewer anwesend, der durch Nachfragen Informationen gewinnen, Fragen er- 
lautern. Motivation fordern oder zornig erregte Personen beruhigen kann. 



2.1.2 Weitere Probleme und Besonderheiten 

Die Vor- und Nachteile konnen in Abhangigkeit des jeweiligen Untersu- 
chungsgegenstandes und Handlungskontextes als unterschiedlich gravierend 
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angesehen werden. Es gibt eine Fiille von Arbeiten, die sich mit den genannten 
Aspekten und anderen EinfluBfaktoren auf Ergebnisverzerrungen von schrift- 
lichen Befragungen befassen. Die meisten richten sich auf Experimente zur 
Bestimmung von Variablen, die die Riicklaufquote beeinflussen. Die Antwort- 
bereitschaft erscheint demnach als abhangig von der vermeintlichen Seriositat 
des Absenders (z.B. von der Regierung geforderte Forschung) und dessen 
Begleitschreiben (Scott 1961), von der Lange des Fragebogens (Berdie 1973), 
der Farbe des Fragebogens (Matteson 1975), von finanziellen Anreizen (Arm- 
strong 1975), von handschriftlichen Zusatzen und anderen Mitteln der Perso- 
nalisierung (Carpenter 1975), von der Wahl der Briefmarken (Hensley 1974), 
der zugesicherten Anonymitat (Fuller 1974) und weiteren Faktoren (Linsky 
1975, Sudman/Bradburn 1974). AuBerdem wird untersucht, ob es Personlich- 
keitsunterschiede zwischen Antwortern und Nichtantwortern gibt. Binder, 
Sieber und Angst (1979) fanden heraus, daB Personen mit hohem Berufs- und 
Bildungsstatus sowie Nichtraucher haufiger den Fragebogen zuriicksandten. 
Die Antworter waren hinsichtlich der Skalen des Freiburger Personlichkeitsin- 
ventars gehemmter, weniger gesellig und weniger dominant, aber zugleich 
offener als die Nichtantworter. Die Effekte waren sehr schwach. Die Erfor- 
schung von Bedingungen fiir die Riicklaufquote ist bisher iiberwiegend theo- 
rielos und methodisch relativ anspruchslos vorgenommen worden. Es fehlen 
genugende mehrfaktorielle und multivariate Untersuchungen, die auch Aus- 
kunft liber Moderator- bzw. Interaktionseffekte geben und die in theoreti- 
scher Hinsicht auf sozialpsychologische Erklarungen (z.B. Altruismus) zu- 
riickgreifen konnen. Nach einer anspruchsvollen Reanalyse von 98 Experi- 
menten zur Riicklaufquote kommen Heberlein und Baumgartner (1978) zu der 
Auffassung, daB nicht die niedrige Riicklaufquote selbst das Problem darstellt, 
sondern ihre Variability im Hinblick auf verschiedene Forscher, Populatio- 
nen, Fragebogen und Vorgehensweisen. Als wichtigster Faktor wird die sub- 
jektive Bedeutsamkeit angesehen, die durch eine Vielzahl von Anreizen, wie 
sie schon immer in der Literatur diskutiert worden sind, seitens des Forschers 
erhoht werden kann. Unter dieser Perspektive erscheinen die widerspriichli- 
chen Befunde beziiglich der Lange des Fragebogens in einem anderen Licht. 
Offenbar wird bei einem langen Fragebogen der durch erhohten Arbeitsauf- 
wand gegebene negative Effekt mehr als ausgeglichen durch die Unterstellung 
von Bedeutsamkeit, die ihm zugeschrieben wird. Sehr kurze Fragebogen wer- 
den moglicherweise als weniger bedeutsam erlebt. 

In der Psychologie ist die postalische Variante der schriftlichen Befragung 
weniger gebrauchlich als zum Beispiel in der Markt- und Meinungsforschung. 
Das mag auch damit zusammenhangen, daB Ausklinfte iiber Tatsachen psy- 
chologisch weniger interessant erscheinen als die Erfassung subjektiver Wahr- 
nehmungen eigenen und fremden Erlebens und Handelns. Beide Aspekte ver- 
dienen neuerdings mehr Beachtung im Rahmen der Erfassung von Auswirkun- 
gen kritischer Lebensereignisse. Mit dent Life Experiences Survey (LES) zum 
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Beispiel wird danach gefragt, ob innerhalb der letzten sechs oder zwolf Mona- 
te ein Verlust von Angehorigen, eine Verschuldung, eine Trennung, eine Ar- 
beitslosigkeit, eine Krankheit usw. eingetreten sind und als wie beeintrachti- 
gend dieses Ereignis erlebt worden ist, was auf einer siebenstufigen Skala 
anzugeben ist (Johnson/Sarason 1979). Solche Befragungen dienen der quanti- 
tativen Abschatzung von subjektiven Fehlanpassungen und situativ bedingten 
StreBreaktionen. 

Die schriftliche Befragung erfolgt in der psychologischen Forschung meistens 
als Gruppenbefragung bzw. als ,, Befragung unter Aufsicht“ (Anger 1969), was 
in der Regel zu einer Rucklaufquote von 100% fiihrt. Man bedient sich dabei 
der leichten Zuganglichkeit von Schulen, Betrieben, militarischen Einheiten, 
Krankenhausern usw., was jedoch normalerweise mit dem Verzicht auf Zu- 
fallsstichproben verbunden ist und filr die Wahl der Analyseeinheit (Individu- 
en oder Aggregate) Probleme aufwirft. Sofern es aus theoretischer Sicht ver- 
niinftig ist, werden daher Mehrebenenanalysen empfohlen. Die Ausnutzung 
institutioneller Gegebenheiten ftir Befragungszwecke beschrankt sich nicht 
nur auf die dort erfaBte Population, sondern auch auf Angehorige. So werden 
in der Padagogischen Psychologie zum Beispiel nicht nur Schuler, sondern 
auch deren Eltern und Geschwister befragt, indem man die Lehrer als Verteiler 
und die Schuler als Boten der Fragebogen einsetzt, so daB der Riicklauf trotz 
gewahrter Anonymitat exakt kontrolliert werden kann. Im Zusammenhang 
mit der Schulversuchsbegleitforschung oder Curriculumevaluation lassen sich 
auf diese Weise ganze soziale Einheiten und Umfelder mit nahezu kompletten 
Daten erfassen (Schwarzer 1975). 



2.2 Die miindliche Befragung 

2.2.1 Vor- und Nachteile 

Die miindliche Befragung wird im allgemeinen als Interview bezeichnet. Ge- 
genuber der schriftlichen Befragung verfiigt sie iiber einige Vorteile. (1) Flexi- 
bilitat. Der Interviewer kann sich den Bediirfnissen des Befragten anpassen, 
indem er MiBverstandnisse ausraumt und das mit der Frage Gemeinte noch 
einmal umgangssprachlich erlautert. (2) Spontaneitat. Die impulsiven Reaktio- 
nen des Befragten, die manchmal valider sind als die wohlliberlegten Reaktio- 
nen, konnen vom Interviewer festgehalten werden. Der geschulte Interviewer 
kann aufgrund des mit der Beantwortung verbundenen Gesamteindrucks dar- 
tiber entscheiden, welcher Kategorie eine Reaktion zuzuordnen ist. (3) Nicht- 
verbale Reaktionen. Der Interviewer kann auch die nonverbalen und paralin- 
gualen Verhaltensweisen beobachten wie Achselzucken, Lachen, Erroten usw. 
und damit den Grad der Validitat der Aussagen abschatzen. (4) Identifikation. 
Der Befragte ist eindeutig als solcher identifiziert. Er kann die Beantwortung 
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nicht an andere Personen delegieren, wie es bei der postalischen Befragung 
moglich ist. (5) Kontrolle der Erhebungssituation. Der Interviewer kann fiir 
alle Befragten eine vergleichbare entspannte Atmosphare schaffen und dafttr 
sorgen, daB die Fragen in Ruhe und ohne unerwiinschte Anwesenheit Dritter 
beantwortet werden. (6) Reihenfolge. Es wird sichergestellt, daB die vorgege- 
bene Reihenfolge der Fragen eingehalten wird und der Befragte nicht beliebig 
von einer Frage zur anderen springen kann, wodurch sich Positionseffekte 
ergeben konnten. (7) Komplexitat. Bei komplexen Fragenkatalogen mit vielen 
Filtern ist das mlindliche Interview ilberlegen, weil der trainierte Interviewer 
die vielen Sprungbefehle im Kopf hat und den Befragten sicher durch das 
Gestriipp flihren kann. (8) Dauer. Die Bearbeitungsdauer laBt sich registrieren 
und als zusatzliche Variable in die Auswertung aufnehmen. Dies kann ein 
Indikator ftir den Grad der personlichen Involviertheit mit dem Thema sein. 

(9) Vollstandigkeit. Der Interviewer vergewissert sich der vollstandigen Bear- 
beitung aller Fragen und wird bei verweigerter Beantwortung einer Frage 
priifen, ob eine echte ,,Meinungslosigkeit“ oder nur Bequemlichkeit vorliegt. 

(10) Rucklauf. Die Stichprobe bleibt meistens zu mehr als 80% erhalten, da die 
Zahl der Verweigerer und die der nicht Auffindbaren gering ist, was allerdings 
auch von einigen Faktoren abhangig ist, die zu einer Variation der Antwortbe- 
reitschaft fiihren (z.B. heikles Thema). Analphabeten sind fiir Interviews zu- 
ganglich. Viele Personen sind eher bereit, eine mlindliche als eine schriftliche 
Interaktion einzugehen. 

Den Vorteilen stehen einige Nachteile gegeniiber. (1) Kostenaufwand. Die 
Personalkosten fiir den Interviewerstab wahrend der Trainingsphase und der 
Feldarbeit schlagen zu Buche. Manchmal treten Reisekosten hinzu. Aufgrund 
regionaler Verstreutheit ist unter diesen Umstanden manchmal kein Zugang zu 
der interessierenden Personengruppe moglich. (2) Zeitaufwand. Hat man gro- 
Be Stichproben und wenige Interviewer, muB die Befragung auf einen liingeren 
Zeitraum verteilt werden. Da die zu Befragenden nicht imrner erreichbar oder 
antwortunwillig sind, gibt es zusatzliche Verzogerungen. Die daraus resultie- 
rende spate Verfligbarkeit iiber die Forschungsergebnisse ist nur ein Nachteil. 
Noch gravierender diirften eventuelle MeBzeitpunkteffekte sein, da wahrend 
der Befragungsmonate individuelle oder kollektive Ereignisse eintreten kon- 
nen, die die Beantwortungsrichtung beeinflussen. (3) Geringere Anonymitat. 
Das personliche Gegeniiber von Interviewer und Befragten reduziert die zuge- 
sicherte Anonymitat und kann als Bedrohung empfunden werden, die zu einer 
Verfiilschung der Antworten oder zur Teilnahmeverweigerung fiihrt. (4) Bela- 
stigung. Wird der Befragte zu Hause oder am Arbeitsplatz aufgesucht. kann er 
dies als belastigend empfinden, was die Befragungssituation beeintrachtigt, die 
dadurch zu einer StreBsituation werden kann. Vor allem wenn zusatzlich Drit- 
te anwesend sind, die die Interaktion beobachten, konnen soziale Angstlich- 
keit, soziale Erwiinschtheit oder Imponiergehabe den Dialog beeinflussen. (5) 
Interview ereinflufi. Personliche Merkmale des Interviewers wie Geschlecht. 




310 



Ralf Schwarzer 



auBere Erscheinung, Auftretensweise, Alter usw. konnen systematische Fehler 
(bias) in den Rapport einschleusen. (6) Geringe Standardisierung. Der Vorteil 
der Flexibility des Interviewers stellt zugleich ein Problem dar, weil das indi- 
viduelle Erlautern und nondirektive Nachfragen die Vergleichbarkeit zwischen 
den Interviews beeintrachtigt. 



2.2.2 Der Interviewer 

Das Interview stellt eine besondere soziale Interaktion dar, in der ein Interak- 
tionspartner auftragsgemaB fragt und der andere freiwillig antwortet. Die 
Kommunikationssituation ist kunstlich, asymmetrisch und von sehr kurzer 
Dauer. Der Interviewer verfolgt im Dialog keine personlichen Interessen, son- 
dern die seines Auftraggebers. Er ubernimmt eine spezifische Rolle im For- 
schungsprozeB, die zwischen dem Forscher und dem Befragten agiert. Daher 
erhalt der an den Fragenkatalog und zusatzliche Instruktionen gebundene In- 
terviewer methodisch gesehen den Status eines Instruments. Den Menschen als 
Forschungsinstrument einzusetzen, ist eine riskante Angelegenheit. Einerseits 
verfilgt er liber eine Informationsverarbeitungskapazitat ohnegleichen, die ihm 
Flexibility im Verfolgen der Ziele erlaubt, andererseits stellt er eine Quelle 
von systematischen Fehlern dar. Der zweite Aspekt ist seit Jahrzehnten Ge- 
genstand von soziologisch orientierten Untersuchungen (Bailey 1978, Erbsloh/ 
Wiendieck 1974). Als verantwortlich filr diesen , .interviewer bias“ lassen sich 
Merkmale der auBeren Erscheinung, latente Verhaltensdispositionen und si- 
tuationsspezifische Verhaltensweisen unterscheiden. Die alteren amerikani- 
schen Studien richten sich vor allem auf den EinfluB von Rassen-, Sozial- 
schicht- und Geschlechtszugehbrigkeit, Alter und Kleidung. Danach erzeugen 
Interviewer mit unterschiedlicher Kategorienzugehorigkeit unterschiedliche 
Effekte bei Personen, die entweder derselben oder der entgegengesetzten Ka- 
tegorie angehoren. Die Auswirkungen sind an der Zahl, der Lange und der 
Ehrlichkeit der Antworten ablesbar. Psychologisch gesehen ist diese For- 
schungstradition unbefriedigend. weil auBere Merkmale keine direkte Kausal- 
wirkung auf das Verhalten des Dialogpartners ausuben. Vielmehr ware es von 
Bedeutung, die kognitiven Zwischenprozesse zu analysieren, welche filr Ver- 
haltensanderungen verantwortlich sind. Diese Kritik gilt in abgeschwachter 
Weise gleichermaBen filr die Untersuchungen der Einflusse aufgrund von Per- 
sonlichkeitseigenschaften (latenten Verhaltensdispositionen) von Interviewern 
und aufgrund von spezifischen Verhaltensweisen des Interviewers wiihrend 
der Befragung. In der sozialen Interaktion sind Kognitionen verhaltenswirk- 
sam (Frey 1978), und andere Merkmale dienen lediglich als Indikatoren oder 
als zusammenfassende Konstrukte. Die Analyse von Interviewereffekten be- 
darf demnach der besonderen Beriicksichtigung von sozialen Vergleichspro- 
zessen (Suls/Miller 1977). Der Befragte vergleicht sich selber mit dem Intervie- 
wer und definiert auf diesem Wege die wahrgenommene soziale Distanz zwi- 
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schen beiden Personen. Dabei verwendet er auBere Merkmale, die vermutete 
Sozialschichtzugehorigkeit und die angenommene Einstellungskongruenz als 
Hinweisreize. Die Definition der Distanz bzw. des Ahnlichkeitsgrades bezieht 
sich offenbar vor allem auf solche Merkmale, die mit der Thematik des Inter- 
views verwandt sind (related-attribute similarity). Danach ware es zum Bei- 
spiel in einem Interview liber Einstellungen zu Gastarbeitern von Bedeutung. 
ob der Interviewer z.B. wie ein Student aus der Dritten Welt oder wie ein 
deutscher Landwirt aussieht. Dagegen wil'd der entsprechende Interviewer- 
effekt bei den Themen Schulreform oder Flugsicherheit geringer sein. Das 
Ahnlichkeitskonzept hangt mit der subjektiv wahrgenommenen sozialen Do- 
minanz zusammen. Die Unahnlichkeit zwischen Interviewer und Befragten 
kann in Abhangigkeit vom Befragungsgegenstand oder einem weitergehenden 
Befragungskontext relevant oder irrelevant sein, entscheidend ist jedoch, ob 
diese Unahnlichkeit zugleich ein soziales Dominanzgefalle impliziert. Die 
Wahrnehmung eines dominanten Interviewpartners kann zu einer kognizier- 
ten Bedrohung fiihren, welche beirn Befragten die Auswahl solcher Antworten 
begunstigt, die geeignet erscheinen, den Grad der sozialen Bedrohlichkeit zu 
reduzieren. Dazu gehoren Antworten defensiver oder aggressiver Art bzw. 
sozial erwiinschte AuBerungen, da Konformitat streBreduzierend wirken 
kann. Die perzipierte Unahnlichkeit im Sinne von sozialer Dominanz muB 
allerdings nicht in jedem Falle nur auf die Person des Interviewers zuruckzu- 
fiihren sein. Der hinter dem Interviewer stehende Auftraggeber kann durch 
diesen hindurch wirken (sponsorship bias) und effektvermindernd oder effekt- 
vergroBernd sein. Tritt ein konservativ erscheinender Interviewer zum Beispiel 
im Auftrag einer Gewerkschaft auf, so konnte dies eine Verminderung des 
Interviewereffekts bedeuten. Je nach Forschungsgegenstand und -interesse 
konnen Interviewereffekte im Sinne der Fragestellung genutzt werden. Fiir 
eine ,,harte“ Befragung eignen sich dominante Interviewer, wahrend ftir eine 
,,weiche“ Befragung Interviewer mit groBer Ahnlichkeit zum Befragten oder 
sogar tendenzieller Submissivitat gesucht werden mlissen, um die Vorausset- 
zungen fiir ein nondirektives Vorgehen zu schaffen. Im Regelfall wird man 
jedoch eine neutrale Befragung anstreben. 

Das Ziel der Interviewerschulung sollte daher darin liegen, moglichst neutrales 
Auftreten zu erzeugen und interindividuelle Unterschiede zwischen den Inter- 
viewern zu reduzieren. Es erscheint sinnvoll, sie mit einer rollenadaquaten 
..Uniform 1 ' zu versehen, um sie soweit wie moglich zu entpersonalisieren. Im 
Idealfall treten sie dem Befragten nicht als Personlichkeit, sondern als For- 
schungsinstrument entgegen. 



2.2.3 Der Befragte 

Die Trennung von Effekten auf der Seite des Interviewers von denen auf der 
Seite des Befragten ist nicht so sehr systematisch als vielmehr heuristisch. Es ist 
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im Einzelfall normalerweise nicht zu entscheiden, ob die Datenverzerrung auf 
eine Person alleine zuruckzufiihren ist, da es sich um einen sozialen Inter- 
aktionsprozeB handelt, in dem die Daten erzeugt werden. An den Befragten 
wird eine Menge von Erwartungen herangetragen wie zum Beispiel die kurz- 
fristige Bereitschaft, Antworten zu geben, ohne selbst zu fragen, und Informa- 
tionen iiber sich und andere preiszugeben, ohne daB dieses Verhalten unmittel- 
bare Konsequenzen innerhalb der alltaglichen Lebenswelt nach sich zieht, wie 
es bei anderen sozialen Interaktionen der Fall ist. Der Befragte wird als Daten- 
trager oder potentieller Datenproduzent angesehen, wobei davon ausgegangen 
wird. daB er diese Attribution fur die eigene Rollendefinition ubernimmt. 
Damit wird dem Interviewer weitgehend die Kontrolle der Situation iiberlas- 
sen. Metakommunikation gilt wahrend der Dauer des Interviews als unzulas- 
sig oder storend. Daraus ergeben sich vor allem dann Probleme, wenn die 
Befragten sich freiwillig auf die Situation einlassen, weil damit in der Regel die 
Stichprobe nicht ftir die angestrebte Population reprasentativ ist. Eine ,, Psy- 
chologic des Freiwilligen“ wttrde ermitteln, daB seine Altruismustendenz 
iiberdurchschnittlich hoch liegt oder er seine eigene Sprach- und Sozialkompe- 
tenz hoch einschatzt und unter Beweis stellen mochte usw. Wie sich die Grup- 
pe der Befragten rekrutiert. erscheint danach nicht nur als ein quantitativ 
kalkulierbares Problem des Auswahlverfahrens, sondern mindestens ebenso 
als ein motivationales Problem. Dabei kann es eine Rolle spielen, ob der 
Befragte eine angenehme Sozialbeziehung zum Interviewer entwickeln bezie- 
hungsweise aufrechterhalten mochte, ob er zum Hilfehandeln motiviert ist 
oder ob er aufgrund intellektuell gewandten Handelns seine Selbsteinschat- 
zung iiberprufen oder erhohen mochte und die Interviewsituation als giinstige 
Gelegenheit daflir ansieht. Als typische Antwortverzerrungen (response sets) 
werden dann soziale Erwiinschtheit und Zustimmungstendenz ( Akquieszenz) 
hervorgebracht. Die Probleme sind hier nicht viel anders als jene, die in den 
letzten lahrzehnten ausfiihrlich im Zusammenhang mit Personlichkeitsfrage- 
bogen diskutiert worden sind (Esser 1977, lanke 1973). 

Das Auftreten von Antworttendenzen ist verwandt mit der Tendenz zur 
Nichtbeantwortung. Es wird unterschieden zwischen Frageverweigerung, 
Nichtinformiertheit, Meinungslosigkeit und Unentschiedenheit (Esser 1974), 
ohne daB hier immer eine genaue Trennung mbglich ware. Die Nichtinfor- 
miertheit laBt sich durch eine Filterfrage kontrollieren und dadurch abgrenzen 
von der Meinungslosigkeit. So haben zum Beispiel Schumann und Presser 
(1978) den EinfluB von Filtern auf die Nichtbeantwortung von Meinungsfra- 
gen untersucht. Dagegen ist die echte Unentschiedenheit des Befragten iiber 
die Verwendung von Filtern oder Neutralkategorien nicht vollkommen erfaB- 
bar, weil kognitive Prozesse eine Rolle spielen, die moglicherweise nicht auf 
den Inhalt der Frage, sondern auf die Bedrohlichkeit einer Alternativentschei- 
dung beziehungsweise auf die Interaktionssituation insgesamt gerichtet sein 
konnen, so daB die Selbstbezogenheit der Reizkonfiguration zur Fehlerquelle 
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wird (self-serving bias). Derselbe Mechanismus fiihrt auch dazu, daB gelegent- 
lich Einstellungen geauBert werden, die sachlich nicht moglich sind. Werden 
zum Beispiel Studenten nach ihrer personlichen Meinung zum ,,Psychologen- 
gesetz“ gefragt, welches der Bundestag angeblich im letzten Jahr verabschiedet 
hat. so findet man tatsachlich einige, die bereitwillig und sogar ausfiihrlich ihre 
Meinung dazu artikulieren. Es geht in solchen Situationen nicht um den In- 
halt. sondern eher um ein rollenadaquates intellektuelles Verhalten. Antwort- 
und Nichtantworttendenzen entstehen offenbar im Zusammenhang mit Ko- 
gnitionen, die die eigene Person betreffen. Es handelt sich bei den Daten daher 
um eine Konfundierung von zwei Reaktionsweisen. Der Befragte ist sowohl 
reaktiv gegeniiber deni Inhalt als auch gegeniiber der Erhebungssituation ins- 
gesamt, wobei insbesondere der Interviewer als einer von vielen situativen 
Stimuli wirksam ist. Die doppelte Reaktivitat fiihrt zu einer Einschrankung 
der Validitat der Messung. Gelegentlich wird daher vorgeschlagen, nichtreak- 
tive Verfahren (z.B. Beobachtung und Inhaltsanalyse) anstelle der Befragung 
zu verwenden. Das ware jedoch eine unndtige Reduzierung einer prinzipiell 
multi-methodischen Forschungsstrategie. Vielmehr geht es darum. die Validi- 
tatsprobleme transparent zu machen und in jedem Einzelfall die differentielle 
Giiltigkeit der Daten zu maximieren, das heiBt nach Beachtung der iiblichen 
Regeln zu ermitteln, fiir welche Situationen und bei welchen Personen die 
Validitat hoher oder geringer ausfallt und welche psychischen Prozesse aus 
theoretischen Griinden dafttr verantwortlich gemacht werden kbnnen. Dieser 
Aspekt wird bei der herkdmmlichen Umfrageforschung - aus verstandlichen 
Griinden - im allgemeinen vernachlassigt. 



2.3 Einige Sonderformen 

2.3.1 Realkontakt-Befragung 

Angesichts der Validitatsprobleme sind Vorschliige gemacht worden, um die 
Erhebungssituation grundsatzlich zu verandern. So stammt von Kreutz (1972) 
der Vorschlag, zusatzlich zu den iiblichen Forschungskontakt-Befragungen 
vor allem sogenannte Realkontakt-Befragungen durchzufiihren. Dabei iiber- 
nimmt der Interviewer eine Rolle, die in dem Untersuchungsfeld natiirlicher- 
weise bereits vorhanden ist. Wenn es zum Beispiel darum geht. das Interak- 
tionsverhalten oder die Leistungsanforderungen von Hochschullehrern zu un- 
tersuchen, kann man Studenten in deren Sprechstunden schicken und Fragen 
stellen lassen, deren Beantwortung ohne Verzerrung zu den entsprechenden 
Daten fiihrt. Das Anwendungsfeld der Realkontakt-Befragung ist umfangreich 
(Kreutz 1972, S. 111). Die Interviewer konnen als Kaufer auftreten, um das 
Verkaufsverhalten in verschiedenen Branchen zu erforschen: sie konnen als 
Wohnungssuchende auftreten. um das Verhalten von Besitzern und Maklern 
zu studieren; sie konnen als Stellenbewerber auftreten, um Selektionsvorgange 
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und Anforderungskriterien zu ermitteln; sie kbnnen als Kranke auftreten, um 
das Verhalten von Arzten zu registrieren usw. Das Vorgehen laBt sich verbin- 
den mit anderen Sonderformen wie zum Beispiel dem Tandem-Interview, bei 
dem jemand von zwei Interviewern zugleich befragt wird. Will man die Inte- 
raktionsvorgange in einer psychologischen Eheberatungsstelle untersuchen, 
bietet es sich an, die Interviewer als Ehepaare zu tarnen, die mit einem erfor- 
derlichen Leidensdruck die Beratungsstelle aufsuchen. Die Realkontakt-Befra- 
gung nahert sich anderen Methoden wie zum Beispiel der verdeckt-teilneh- 
menden Beobachtung. Bei isolierender Bedingungsvariation ist der iibergang 
zu einer experimentellen Anordnung gegeben. Der entscheidende Vorteil des 
Verfahrens liegt in dem Versuch, Validitat zu erhohen, indem die erwiinschte 
Reaktivitat auf den Inhalt maximiert und die unerwiinschte Reaktivitat auf das 
MeBinstrument minimiert wird. Da der Interviewer seinen tatsachlichen Auf- 
trag und seine Rolle im ForschungsprozeB nicht zu erkennen gibt, handelt es 
sich hier um eine verdeckte Methode, deren forschungsethische Implikationen 
mit zu reflektieren sind. 



2.3.2 Telefoninterview 

Das Telefoninterview dient dazu. in einer aktuellen Situation billig und 
schnellstmoglich ein vorlaufiges Meinungsbild zusammenzutragen (Bailey 
1978). Es ist daher fur Meinungsforschungsinstitute und Tageszeitungen gele- 
gentlich brauchbar, wahrend es in der psychologischen Forschung bisher keine 
bedeutende Rolle spielt. Andererseits sind die potentiellen Vorteile dieser Va- 
riante noch nicht geniigend ausgeschopft worden. Innerhalb weniger Stunden 
nach Eintreten von zum Beispiel Ungliicken oder politischen Ereignissen ist 
bereits eine kostengiinstige Datenerhebung moglich, ohne daB zwischenzeit- 
lich ein offentlicher MeinungsbildungsprozeB durch Massenmedieneinflusse 
und Gruppendiskussionen wirksam geworden ist. Ein entscheidender Nach- 
teil liegt in der Reduzierung der Stichprobe auf Telefonbesitzer und solche, die 
gerade in der Wohnung anwesend sind. Weiterhin ist mit einer groBen Verwei- 
gerungsquote zu rechnen, da Telefoninterviews nicht alltaglich sind und als 
Telefonterror miBverstanden werden konnten. Die Seriositat des Unterneh- 
mens ist wegen fehlender Legitimationsmoglichkeiten fragwiirdig. Diese 
Nachteile konnen iiberwunden werden, wenn von vornherein nur eine Popu- 
lation untersucht werden soil, die telefonisch erreichbar ist, und wenn das 
Telefoninterview vorher schriftlich vereinbart worden ist. Bei zum Beispiel 
einer Evaluation von Problemen, die in psychologischen Schulforschungspro- 
jekten auftreten, kann der Evaluator in einem Schreiben auf Kopfbogen die 
verschiedenen Projektleiter um ein Telefoninterview bitten, ftir das ein Zeit- 
punkt vorgeschlagen wird und fur das die wichtigsten Fragen schriftlich vorge- 
geben sind (,, Werden Sie in Zukunft Rattenexperimente durchfiihren, wenn 
der Zugang zu Schulen nicht mehr moglich sein sollte, oder was sonst?“). Eine 
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andere wenig genutzte Moglichkeit liegt in der Verwendung des Telefoninter- 
views bei Panelstudien. Man untersucht zum Beispiel im Langsschnitt die 
Stabilitat und Veranderung von Einstellungen gegeniiber Energie- und Um- 
weltproblemen. Nach einem personlichen Erstinterview wird die gewonnene 
Stichprobe spater nur noch telefonisch nachbefragt, wobei die Untersuchung 
den Charakter eines Zeitreihenexperiments erhalten kann, wenn man die na- 
tiirlich auftretenden Ereignisse als Treatments betrachtet. Sobald zum Beispiel 
eine Umweltkatastrophe in den Massenmedien gemeldet wird, greift der For- 
scher zum Telefon und realisiert einen neuen MeBzeitpunkt in seiner Panel- 
studie. 

2.3.3 Kinderinterview 

In der Entwicklungspsychologie richten sich viele Forschungsfragen auf die 
Entstehungsbedingungen von Dispositionen, Werten und Einstellungen wah- 
rend der familiaren und schulischen Sozialisation. Der Mangel an okonomisch 
einsetzbaren Skalen flir Kinder ftthrt zur Anwendung weniger standardisierter 
und strukturierter Verfahren. Kinderinterviews miissen die mangelnde Sprach- 
beherrschung, das fehlende Abstraktionsniveau, die kurze Aufmerksamkeits- 
spanne, die Ideenfllichtigkeit, die Unvertrautheit mit der Erhebungssituation 
und die Besonderheiten der Kind-Erwachsener-Beziehung beriicksichtigen 
(Bailey 1978). Bei Vorschulkindern und ErstklaBlern sind schriftliche Unter- 
suchungsverfahren ausgeschlossen. Man behilft sich mit dem Vorlesen von 
Fragen und mit Veranschaulichungstechniken und fordert vom Kind sehr ein- 
fache Antworten, die manchmal auch nonverbal gegeben werden konnen. Die 
soziale Beziehung zwischen Kind und Erwachsenem ist in viel starkerem MaBe 
asymmetrisch als in anderen Interviewsituationen, weil das Kind die Erwach- 
senen vor allem als Eltern und Lehrer versteht und nicht die Moglichkeit hat, 
sich selbst in die Rolle eines Interviewers zu versetzen. Flir das Kind handelt es 
sich bei den Erwachsenen um Personen, die viel mehr wissen als Kinder und es 
daher eigentlich nicht notig haben, Fragen zu stellen. Somit besteht die Ge- 
fahr, daB das Kind die Fragen als Priifungsfragen miBversteht und unter Lei- 
stungsdruck nach Richtig-Falsch-Unterscheidungen sucht, statt nach Prafe- 
renzunterscheidungen. Das Kind weiB nicht, was man von ihm in der Inter- 
viewsituation erwartet, kennt also nicht die Rolle eines Befragten. Es empfiehlt 
sich daher, die unvertraute Forschungsaktivitat in eine vertraute Situation zu 
verwandeln, indent ein Spiel als Rahmen flir die Datenerhebung verwendet 
oder das Interview selbst als Spiel durchgefiihrt wird. So kann man zum Bei- 
spiel fur die Gesprachsoperation Spielzeugtelefone benutzen oder Puppen als 
Interviewer einsetzen. Das Puppenspiel-Interview kann bei Kindern eine ge- 
eignete Datenerhebungsmethode sein, sofern die Einschrankungen, die flir 
projektive Verfahren grundsatzlich gelten, bedacht werden. Das gilt gleicher- 
maBen flir die Verwendung von Bildvorlagen oder die Erganzung unvollstan- 
diger Geschichten. 
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3. Befragung im Handlungskontext 

3.1 Befragung und Introspektion 

In der psychologischen Forschung werden Befragungen weniger zum Zwecke 
der Erhebung von Fakten- und Meinungsdaten vorgenommen als vielmehr in 
der Absicht, intra- und interindividuelle Differenzen von Informationsverar- 
beitungsprozessen zu ermitteln. Kognitionen sind der zentrale Gegenstand. 
Dabei kann man zwischen selbstbezogenen und umweltbezogenen Kognitio- 
nen unterscheiden, denen eine handlungsleitende Funktion zugeschrieben 
wird. Die Befragung erscheint nur unter der Voraussetzung sinnvoll, daB die 
handelnde Person iiber die eigenen Kognitionsinhalte Auskunft geben kann. 
Die Tatsache, daB man immer irgendwelche Daten erhalt, wenn man Personen 
iiber ihre handlungsleitenden Kognitionen befragt, ist kein Nachweis fur giilti- 
ge Introspektionsvorgange (Nisbett/Wilson 1977; Smith/Miller 1978). Offen- 
bar ist die Befragung nach Beweggrunden fur routinisierte Handlungs- und 
Denkablaufe zwecklos, weil Introspektion in solchen Fallen zu nachtraglich 
etablierten Kognitionen fiihrt, die eine handlungskommentierende oder hand- 
lungsrechtfertigende Funktion haben. Die Unterscheidung von Kognitionen 
mit verschiedenen Funktionen im Handlungsverlauf stellt fiir den Forscher ein 
schwerwiegendes Problem dar. In einem Projekt zum Beispiel zur Erfassung 
von Lehrerkognitionen im Unterrichtsverlauf werden mit Hilfe von Videoaus- 
schnitten nachtraglich Interviews durchgefuhrt, in denen eine Rekonstruktion 
von ehemals handlungsleitenden Kognitionen versucht wird (Wahl 1979). Da- 
bei wird eine Widerspruchstechnik (Konfrontationsmethode) verwendet, wie 
sie in StreBinterviews ublich ist. Der Befragte wird in der verbalen Artikula- 
tion seiner vermeintlichen Kognitionen auf die Probe gestellt, er wird daran 
gehindert, auf der Basis von anfanglich geauBerten Kognitionsinhalten einfach 
weiter zu assoziieren. 

Interviewvarianten, die auf diese Weise realisiert werden, sind halbstandardi- 
siert und halbstrukturiert. Sie lassen sich den Intensivinterviews zuordnen, bei 
denen die Fragen offengehalten sind, um den Antwortspielraum zu vergro- 
Bern, und bei denen die Reihenfolge und Formulierung der Fragen auf den 
Befragten in der Situation selbst zugeschnitten sind (focused interview). Beim 
klinischen Interview wird diese Vorgehensweise ebenfalls bevorzugt, zum Bei- 
spiel wenn es um die subjektive Wahrnehmung der eigenen Lebensentwick- 
lung und Konfliktbewaltigungsversuche geht (life-history interview). Ein In- 
terviewleitfaden genttgt, um die erforderlichen Daten zu erheben. Eine andere 
Variante im klinischen Bereich ist das nondirektive Interview, welches in der 
Gesprachstherapie ublich ist. Es verftigt iiber keine vorgegebene Struktur, der 
Interviewer beschriinkt sich auf akzeptierendes Kopfnicken und die Verbalisie- 
rung der emotionalen Erlebnisinhalte des Klienten mit dem Ziel, diesen bei der 
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Selbstexploration zu unterstiltzen. Die Datenerhebung ist dabei sekundar und 
dient lediglich der nachtraglichen Evaluation des Therapeutenverhaltens. 

Intensivinterviews zur Erfassung von handlungsleitenden Kognitionen sind 
sehr schwierig auszuwerten. Die theoretische Vorarbeit ist erheblich aufwen- 
diger als zum Beispiel diejenige, die fur die herkommliche Umfrageforschung 
erforderlich ist. Die einzelnen Aussagen der Befragten miissen einem Netz- 
werk von Hypothesen zugeordnet und auf Konsistenz gepruft werden. Geht 
es dem Forscher um die Rekonstruktion von subjektiven Theorien als einer 
geordneten Menge von handlungsbezogenen Kognitionsinhalten, sind deren 
Strukturen zu erforschen. Scheele und Groeben (1979) haben dafur eine Struk- 
tur-Lege-Technik entwickelt, die als Grundlage fiir eine konsensorientierte 
Validitatsprufung dienen kann. Bei dem Dialog-Konsens handelt es sich um 
eine gemeinsame Interpretation der Interviewdaten zwischen dem Forscher 
und dem Befragten. Der Befragte wird auf diese Weise als ein reflexives Sub- 
jekt angesehen und als Instanz zur Validierung der Daten genutzt. Der Befrag- 
te ist hier nicht Versuchsperson, sondern Versuchspartner. 

Ein grundsatzliches Problem bei der introspektiven Datenerhebung liegt dar- 
in, dab man sich mehr an eigenes Handeln und Denken erinnert als an andere 
Situationsdeterminanten und sich selbst meist etwas positiver sieht, als es die 
neutralen Beobachter tun (self enhancement). Die aus dem Gedachtnis abgeru- 
fene Information ist in diesem Sinne selektiv (egocentric bias) und verfalscht 
die Daten (Ross/Sicoly 1979). Auf der anderen Seite kann gerade die Selbstbe- 
zogenheit im Denken und Handeln der Forschungsgegenstand sein. Die Ana- 
lyse von Selbstgesprachen ist ein Weg zur Ermittlung der kognitiven Prozesse, 
die fiir bestimmte Formen des Erlebens und Handelns verantwortlich sind 
(Belschner 1980). Das Interview kann dabei die Funktion ubernehmen, durch 
wenige gezielte Stimuli den Befragten bei der Rekonstruktion von selbstkom- 
munikativen Ablaufen zu unterstlitzen (lautes Denken). In der kognitiven 
Verhaltenstherapie spielt die Selbstinstruktion (inneres Sprechen) als For- 
schungsgegenstand und Therapieziel ebenfalls eine wichtige Rolle. 



3.2 Intendierte Veranderungen im ForschungsprozeB 

Die Befragung richtet sich im psychologischen ForschungsprozeB weniger auf 
vorgefundene Daten als auf solche, die wahrend der Interaktionssituation er- 
zeugt werden. Es handelt sich demnach um einen aktiven Konstruktionspro- 
zeB von sprachlich abbildbarer Realitat. Aus diesem Sachverhalt wird manch- 
mal die Uberlegung abgeleitet. den Interviewer aus seiner moglichst neutralen 
Rolle eines Instruments zu befreien und in besserer Nutzung seiner intellektu- 
ellen Flexibility ihn bewuBt als Mitgestalter solcher Realitatskonstruktionen 
einzusetzen. Damit werden Interviewer und Befragter zu Versuchspartnern, 
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deren Anliegen die gemeinsame Sinnkonstitution ist. Die Gliltigkeitsprufung 
erfolgt durch Konsenstechniken. Charakteristisch fur den auBeren Ablauf sol- 
cher Interviews ist der Mangel an Strukturiertheit und Standardisiertheit. Statt 
dessen wil'd der Befragte lediglich dazu veranlaBt, sich im Hinblick auf eine 
Alltags- bzw. Problemsituation frei zu auBern (narratives Interview). Anstelle 
quantitativer Auswertungsmethoden werden interpretative Verfahren ange- 
wandt. Der wissenschaftliche Status solcher Befragungsmethoden ist umstrit- 
ten. Sie sind grundsatzlich ungeeignet zum Gewinn generalisierbarer Erkennt- 
nisse. Daher werden sie vor allem im Kontext von Handlungsforschung bevor- 
zugt, in der die planmaBige Veranderung des Untersuchungsfeldes angestrebt 
wird. 

Integrative Forschungs- und Handlungsprozesse in abgegrenzten Praxisfel- 
dern konnen Befragungen als wichtige Elemente einschlieBen. Bei der Organi- 
sationsentwicklung und Systemberatung erweist es sich als sinnvoll, in einem 
ersten Schritt Daten iiber das System zu erheben. Das konnen zum Beispiel 
Einstellungs- und Konfliktbewaltigungsmuster bei Lehrern und Schiilern einer 
neuen Gesamtschule sein. In einem zweiten Schritt werden die Ergebnisse in 
das System zurlickgemeldet (Survey feedback), um sie flir die dort Handelnden 
transparent und diskutierbar zu machen. AnschlieBend werden strukturelle 
oder habituelle Veranderungen vorgenommen, die in einer letzten Phase empi- 
risch evaluiert werden (Miles u.a. 1970). Der Unterschied zur herkommlichen 
Umfrageforschung liegt vor allem in der Funktion der Befragung, die hier eine 
interventionsvorbereitende Methode darstellt. 
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7. Kapitel 



Exploration 

U do U ndeutsch 



Die Exploration ist wahrscheinlich die umstrittenste psychologische Erhe- 
bungsmethode. Sie wird von einigen fur die ergiebigste und sicherste Erkennt- 
nisquelle gehalten, von anderen als wertlos ei ngeschatzt. Ebenso unterschied- 
lich ist der Begriffsgebrauch. Im englischen Sprachbereich wird der Begriff fur 
Befragungstechniken uberhaupt nicht verwendet, im deutschen Sprachbereich 
wird der Begriff in der Psychologie in der unterschiedlichsten Weise ge- 
braucht: manchmal synonym mit Befragung uberhaupt, manchmal eingeengt 
auf ganz bestimmte Befragungstechniken, wobei wieder groBe Unterschiede 
zwischen verschiedenen Autoren bestehen. 



1. Begriffsbestimmung 

Ein Gesprach ist die partnerbezogene wechselseitige Ausubung der Sprechta- 
tigkeit im zwischenmenschlichen Kontakt in der Absicht, einen Austausch von 
Innerlichkeitsgehalten vorzunehmen. Dabei wechseln die Rollen der Ge- 
sprachsteilnehmer zwischen Sprecher und Horer. Diese Rollen konnen unter 
Gesprachsteilnehmern annahernd gleichgewichtig Oder mit unterschiedlichem 
Gewicht verteilt sein. Sind die Rollen der Gesprachspartner starker ungleich- 
gewichtig verteilt, so ergeben sich daraus Sonderformen der Gesprachsfuh- 
rung: das Lehrgesprach, das therapeutische Gesprach, das Beratungsgesprach, 
das Verkaufsgesprach usw. auf der einen Seite und die verschiedenen Formen 
der Befragung auf der anderen Seite. 

Die Befragung kann sehr unterschied lichen Zwecken dienen und in sehr ver- 
schiedener Form vorgenommen werden. 

1. Sie kann Wissen, Meinungen und Einstellungen uber auBerpersonliche 
Sachverhalte erkunden. 

2. Sie kann der Vorbereitung einer helfenden (beratenden, therapeutischen 
usw.) Intervention dienen. 
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3. Sie kann den befragten Menschen selbst zum Ziel haben: sein Erleben und 
Verhalten in Vergangenheit und Gegenwart und sein „Wesen". 

Befragungen mit der erstgenannten Zielrichtung werden im deutschen Sprach- 
gebrauch als Interview bezeichnet. Es ist in den empirischen Sozialwissen- 
schaften das methodische Instrument mit der weitesten Verbreitung und der 
groBten Zahl von Anwendungsmoglichkeiten. Methodologische Ubersichtsre- 
ferate sind im deutschen Sprachbereich z.B. von Scheuch 1962, Anger 1969 
und Erbsloh 1972 erstattet worden. 

Fur Befragungen der zweiten Art wird der Begriff Anamnese verwendet. 
Thoms (1975) definiert: 

„Anamnese ist eine Methode klinischer Informationssammlung und bezeichnet gleich- 
zeitig die ermittelten Daten. Gesprachsweise Oder mit Fragebogen wird dabei die Vor- 
geschichteeines Menschen, bezogen auf eine bestimmte Fragestellung - psychische 
Oder korperliche Symptomatik -, erhoben." 

Die Anamnese ist eine Methode der klinischen Psychologie. Sie ist auch kei- 
neswegs auf die Befragung des Patienten beschrankt. Fremdbeobachtungen 
und Dokumente werden regelmaBig einbezogen. 

Befragungen mit der an dritter Stelle genannten Zielrichtung konnen sehr 
verschiedene Bindungsgrade aufweisen: von der vollkommen standardisierten 
Befragung uber die teilstandardisierte Befragung bis hin zur nicht-standardi- 
sierten (= freien, ungebundenen) Befragung. Nur die letztgenannte Befra- 
gungsart wird im deutschen Sprachgebrauch als Exploration bezeichnet, wobei 
die Wahl eines Fremdwortes, das als terminus technicus gebraucht wird, an- 
zeigt, daB nicht jede derartige Befragung, wie sie im Alltag in unzahligen 
Varianten vorkommt, gemeint ist, sondern nur die fachkundig vorgenommene 
psychologische (oder tiefenpsychologische Oder psychiatrische) Befragung. 
Dies unterscheidet die Exploration vom Interview des Journalisten wie auch 
von der Vernehmung durch Polizei, Staatsanwaltschaft Oder Gericht. Der 
Umfang der auf das Erleben und Verhalten des untersuchten Menschen und 
auf diesen selbst gerichteten Befragung kann wiederum sehr unterschiedlich 
sein: er reicht von einer Befragung, die „das Ganze eines individuellen Lebens- 
laufes erfassen soil" (Thomae 1968, 113), bis hin zu speziellen Fragestellungen, 
wie es die Aufklarung eines vom Befragten erlebten Ereignisses ist. Es ware 
mit dem fachwissenschaftlichen Sprachgebrauch im Deutschen nicht zu verei- 
nen, den Ausdruck Exploration auf die das ganze bisherige Leben eines Men- 
schen umfassende Befragung zu beschranken. Es ist aber zweckmaBig, thema- 
tisch begrenzte Befragungen, bei denen es nur einen bestimmten Lebensbe- 
reich abzuklaren gilt, als ..Exploration zur Sache" (Undeutsch 1954, 15) zu 
spezifizieren. Entscheidend bleibt aber auch bei diesen stark themenzentrier- 
ten Befragungen, daB es sich um offene und wenig strukturierte Befragungen 
handelt, in denen der befragte Mensch sein Erleben berichtend ausbreiten 
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kann. Exploration ist demnach die mit psychologischer Sachkunde vorgenom- 
mene nicht-standardisierte mundliche Befragung eines einzelnen Menschen 
durch einen einzelnen G esprachsfuhrer mit dem Ziel, A ufschl u 15 zu erhalten 
liber ,,D as I ndividuum und seine Welt" (Thomae 1968). Sucht man nach einem 
etwa bedeutungsgleichen deutschen Wort, so kommt man schon vom genauen 
lateinischen Wortsinn her (ex-plorare = auskundschaften, erforschen) auf den 
Begriff ,,Erkundungsgesprach", der auch schon von Arnold (1957) und Pon- 
gratz (1957) vorgeschlagen worden ist. 

2. Geschichte 

Es Ial5t sich die Annahme begrunden, daS das Erkundungsgesprach im Alltags- 
leben so alt ist wie der menschliche Sprachgebrauch selbst. Die Frage des 
Diomedes an seinen Gegner auf dem Schlachtfeld 

„Wer doch bist Du, Edler, der sterblichen Erdenbewohner?" (Homer: llias, 6. Ges., 
Z. 123) 

(die damals dazu fuhrte, daS die Gegner sich als Freunde aus Vaterzeiten 
erkannten und ihre Freundschaft erneut beschlossen, statt gegeneinander zu 
kampfen) ist in dieser und ahnlicher Form (freilich nicht immer mit dem 
damaligen erfreulichen Erfolg) eine der Grundfragen des menschlichen All- 
tags. Als terminus technicus ist der Begriff ..Exploration" in der klassischen 
Psychiatrie entstanden, wo darunter das Eruieren psychopathologischer Pha- 
nomene beim Patienten verstanden wurde. Der Begriff wurde in weiterer Be- 
deutung in die Psychologie ubernommen von Binet und Piaget. 

Die ersten thematischen Ansatze zur Erforschung von Individuen und ihrer 
Welten durch Befragung und andere biograph ischen Methoden finden sich bei 
W. Stern (1900, 3. Aufl. 1921) und seinen Mitarbeitern (Baade und Lipmann 
1909, Margis 1911). In der wissenschaftlichen Forschung ist die Erhebungsme- 
thode der Exploration intensiv angewandt worden etwa innerhalb der Child- 
Guidance-Untersuchung von MacFarlane (1938), in den Jahren 1938 bis 1947 
von Kinsey und seinen Mitarbeitern (1948 und 1953) zur Erforschung des 
sexuellen Verhaltens des Menschen. Bezuglich des Einsatzes der Exploration 
in der Personlichkeitsforschung verdient Pfahler (1939) der Vergessenheit ent- 
rissen zu werden. Sodann ist aber vor allem auf Thomae zu verweisen, der 
durch die Art des Einsatzes der Exploration und der Auswertung von Explora- 
tionsbefunden gerade jene Gebiete der Personlichkeitserforschung erschlossen 
hat, die bisher von der Wissenschaft beiseite gelassen worden waren, namlich 
das „alltagliche" wie auch das „krisenhafte" Verhalten des Menschen in „na- 
turlichen" Situationen (1968). Nach Thomae bildet die Exploration 

„einen der wenigen Zugangezu einer durch den methodischen Zugriff noch nicht 
veranderten seelischen Wirklichkeit" (1968, 113). 
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Sein Hauptwerk „Das Individuum und seine Welt" (1968) kann man nach 
seinen eigenen Worten 

„als einen Beitrag zur Technik der Auswertung von systematised gewonnenen Explora- 
tionsprotokollen und von Protokollen uber Verhaltensbeobachtungen aus unterschied- 
lich langen biographischen Einheiten ansehen" (117). 

Fur charakterdiagnostische Zwecke hat die Exploration eine zentrale Rolle 
gespielt in der deutschen Wehrmachtspsychologie (1927-1945; s. hierzu 
Kreipe 1936, Walther 1941, Beck 1942, Krober 1942, Mierke 1944, 66-70). In 
abgewandelter Form wurde die Exploration von der US-amerikanischen Mili- 
tarpsychologie ubernommen (Assessment 1948). Seit Flerbst 1944 wurde die 
Exploration zusatzlich zu einer Serie von Fahigkeitstests und einem Person- 
lichkeitsfragebogen bei der Auswahl von M i I itarpi I oten der schwedischen 
Luftwaffe (Trankell 1956) und seit 1951 bei der Auswahl der Piloten der SAS 
(Trankell 1959) verwendet. 

Der Wert der wissenschaftlich ausgestalteten Exploration fur die Beurteilung 
der Eignung von Bewerbern wurde naturlich auch fur Berufe der freien Wirt- 
schaft entdeckt. In England hatte schon vor dem Zweiten Weltkrieg Oldfield 
im Auftrag des National Institute for Industrial Psychology die Erfahrungen 
aus Einstellungsgesprachen gesammelt und ausgewertet und daraus eine Me 
thodik des Einstellungsgesprachs entwickelt (1951). Parkinson (1957) schrieb 
eine geistreiche Parodie uber das in England bei Behorden wie Industrieunter- 
nehmen ubliche Bewerbergesprach. Eine noch groBere Rolle spielte das Be- 
werberinterview (employment interview, selection interview) im US-amerika- 
nischen Wirtschaftsleben, weil dort - wegen des geringen Ausleseeffekts des 
dortigen Schul- und Bildungssystems - die Bewerber viel weniger durch 
Schulbildung und Berufsausbildung vorsortiert sind, weil eine viel groBere 
Fluktuation der Arbeitskrafte besteht und weil, vor allem in den unteren Be- 
volkerungsschichten, Ehrlichkeit und Redlichkeit gegenuber dem Arbeitgeber 
sehr zu wunschen ubrig lassen. Nach einer Erhebung von Spriegel und James 
(1958) gaben im Jahre 1930 93% von 236 befragten Firmen an, daB sie ihre 
Bewerber vor der Einstellung einem Interview unterziehen. Bellows und Estep 
schatzten 1954 die Zahl der jahrlich in den USA zur Bewerberauslese durchge- 
fuhrten Interviews auf 150 Millionen. Dort ist deshalb schon seit Jahrzehnten 
eine reiche Literatur uber Explorationstechnik in Monographien (Kephart 
1952, Bellows & Estep 1954, Fear 1953, 2. Aufl. 1978, The McGraw Hill 
course in effective interviewing, 1973) sowie in Handbuchern der Industrie- 
psychologie (Roethlisberger und Dickson 1939, Bellows 1949, 3. Aufl. 1961) 
vorhanden. 

Eine andere Entwicklungslinie leitet sich her aus der sehr viel alteren Krimi- 
naltaktik, die mit Vernehmungspsychologie (H. Gross 1893, 1898) und Aussa- 
gepsychologie (W. Stern 1902) wichtige Beitrage zur Explorationstechnik ver- 
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heimlichter Sachverhalte und zur Bewertung von Explorationsdaten geliefert 
hat. Auf die Bedeutung der „experimentell gestalteten" ..Exploration zur Sa- 
che" hat Undeutsch fur die Aussagepsychologie (1954, 15 und 1967, 117) und 
fur die Beurteilung der Schuldfahigkeit (1965, ebenso Thomae und Schmidt 
1967, 354-356) hingewiesen. Ebenso hat Undeutsch zu wiederholten Malen 
auf die Bedeutung der Exploration in der Fahrereignungsdiagnostik (fur die 
Abschatzung der Ruckfallwahrscheinlichkeit bei Verkehrsdelinquenten unter 
AlkoholeinfluB sowie bei mehrfach durch VerstoBe in nuchternem Zustand 
auffallig gewordenen Verkehrsdelinquenten) hingewiesen. 

Welche Bedeutung die Exploration im methodischen Arsenal der Psychologie 
heute erlangt hat, kann man am besten daran erkennen, daB im „Handbuch der 
Psychologie" in den bisher erschienenen Banden keine andere Methode der 
Datengewinnung so haufig behandelt worden ist wie sie. Es sind ihr vier 
umfassende Artikel gewidmet worden: 

In ihrer allgemeinsten Form, aber ausschlieBlich im Flinblick auf ihre Verwen- 
dung in den Sozialwissenschaften, behandelt die Befragung der Artikel von 

Anger: Befragung und Erhebung. 1969. 7/ 1, 567-617. 

Die Bedeutung der Exploration in der Personlichkeitsdiagnostik behandelt der 
Artikel von 

Schraml: Das psychodiagnostischeGesprach. (Exploration und Anamnese). 1964, 6, 
868-897. 

Ihre Bedeutung in der Form der Anamnese fur die Klinische Psychologie der 
Artikel von 

Kemmler und Echelmeyer: Anamnese-Erhebung. 1978. 8/ 2, 1628-1648. 

Ihre Bedeutung fur die Forensische Psychologie der Artikel von 

Friedrichs: Dieaussagepsychologische Exploration. 1967, 11, 3-25. 

Die Zahl der empirischen Untersuchungen zur Methode der Exploration ist 
rund um die Welt in den letzten Jahren gewaltig angewachsen. 



3. Qualitative Charakterisierung 

Die Exploration gehort zu den qualitativen Methoden par excellence. Deren 
methodische Eigentumlichkeiten sind herausgearbeitet z.B. in den Artikeln 
von W. Salber (1960, 1969). Die dort herausgestellten methodischen Grund- 
zuge der qualitativen Methoden haben samt und sonders auch fur alle ex- 
plorativen Verfahren Geltung. 
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Im Sinne der Methodensystematik von Cattel (1957) gehort die Exploration zu 
den Verfahren, welche der Gewinnung von „Lifedata" dienen. Sie ist die 
Hauptmethode einer „psychologischen Biographik", die nach Thomae als eine 
Synthese zwischen Jdeographischer" und „nomothetischer" Forschung auf- 
gefaBt werden kann und deren Ziel es ist, „eine psychologische Analyse des 
menschlichen Verhaltens im naturlichen Ablaut des Lebens zu erarbeiten" 
(1968, 105). 

Die Exploration unterscheidet sich von anderen Methoden der Daten- 
erhebung. 

Sie unterscheidet sich vom Experiment dadurch, daft das von ihr erfaBte Erle- 
ben und Verhalten der Untersuchungssituation vorausliegt und daher Bestand- 
teil des naturlichen Ablauts des Verhaltens des Individuums bleibt, wahrend 
das Experiment in die Lebensumstande des Untersuchten eingreift, bestimmte 
Bedingungen herstellt und diese planmaBig verandert. Sie kann aber anderer- 
seits von der experimentellen Methodik profitieren, indem sie die Bedingun- 
gen der Befragung planmaBig verandert, was alsdann zu der Beobachtung 
Gelegenheit gibt, welche Veranderungen dadurch in den Mitteilungen der 
Befragten hervorgerufen werden (Undeutsch 1954, 15). Diese Veranderungen 
konnen zur Beurteilung des Wahrheitsgehalts der gemachten Mitteilungen 
herangezogen werden. 

Sie unterscheidet sich vom Test dadurch, daB sie sich nicht darauf beschrankt, 
nur einen durch stand ardi si erte Testbed ingungen definierten ganz bestimmten 
Ausschnitt aus dem Verhaltensrepertoire in Anspruch zu nehmen. In Tests 
werden in der Regel Auslosereize dargeboten, die dem Untersuchten entweder 
kaum Oder jedenfalls weit weniger vertraut sind als dem Untersucher, wahrend 
in der Exploration typischerweise eine „Gemeinsamkeit der Erlebnissphare" 
(Thomae 1968, 112) besteht. 

Zudem ist die Testsituation im allgemeinen durch eine gewisse „Neutralitat" 
und Konstanz der Situation gekennzeichnet. Die in den hohen Test- 
wiederholungskoeffizienten zutage tretende hohe Stabilitat und Konstanz des 
Reagierens der Individuen sind eher Ausdruck einer Versuchstechnik, welcher 
es gelingt, aus alien „existentiell" begrundeten Varianten des Verhaltens, wie 
sie sich schon im Laufe eines Tages, erst recht aber im Laufe eines Lebens 
ergeben, auf eine relativ neutrale Sphare auszuweichen. Das Ziel der person- 
lichkeitsdiagnostischen Verfahren, namlich bestimmte Personlichkeitszuge mit 
konstanter Zuverlassigkeit zu erfassen, wird in den Tests geradezu dadurch 
erreicht, daB diese gegen den Aufforderungscharakter existentiell bedeutsamer 
Aspekte der jeweiligen Situation immun gemacht werden. Als Folge davon 
haben diese diagnostischen Verfahren, welche von dieser Konzeption der „exi- 
stentiellen Neutralist" ausgehen, fur die Erfassung des realen individuellen 
Verhaltens und seiner „dispositionellen" Hintergrunde nur bedingt Wert. In 
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der Exploration ist es demgegenuber moglich, das Verhalten des Individuums 
in der Vielfalt der banalen wie der existentiell bedeutsamen Situation seines 
realen Lebensvollzugs zu erfassen. 

Auch der standardisierte Fragebogen laBt der personlichkeitsspezifischen Ak- 
tivitatsentfaltung keinen Spielraum. Die erwahnte „Gemeinsamkeit der Erleb- 
nissphare" ist auch bei den Fragebogen starker beeintrachtigt, da diese so 
konstruiert sind, daft vom Befragten ein hoher Prozentsatz der gestellten Fra- 
gen verneinend beantwortet werden muB. 

„Die Vermutung, eine ganze Serie von .neurotischen Symptomen' zu haben, wirkt auf 
.Normale' nicht gerade kontaktstiftend" (Thomae, ebd.). 

Thomae fuhrt zusammenfassend aus: 

„Die Gewinnung dieser Verhaltens-Daten hat dem ideographischen Prinzip zu folgen, 
das moglichst die ,unverzerrte' psychische Wirklichkeit zu erfahren und zu erfassen 
strebt. Deshalb konnen Tests und Fragebogen nicht di eprimare Quelledieser For- 
schung sein, da sie in jedem Falle ja eine Veranderung des realen Verhaltens (Umschal- 
tung von einer sinnbezogenen .erfullten' Situation auf eine relativ sinnarme, nur durch 
Zusatzmotivationen zu stabi I i si erende) darstellen" (1968, 106). 

Am schwierigsten ist naturgemaB die Abgrenzung der Exploration gegen das 
Interview. Thomae (1968; 112) stellt zunachst die Gemeinsamkeiten heraus: 
Beide stellen eine Form der verbalen Kommunikation dar. Gemeinsam ist 
beiden weiterhin, daB Auslosereize (z.B. Fragen) verwendet werden, die einer 
beiden Partnern in ahnlicher Weise vertrauten Erlebnissphare angehoren. 
Dennoch besteht zwischen Interview und Exploration ein Unterschied, den es 
mit Wellek (1958) und Thomae (1968, 112) festzuhalten gilt. Nicht nur ist das 
Interview in seinen verschiedenen Formen mehr Oder minder stand ardi si ert, 
sondern es ist auch ausschlieBlich Oder doch vorwiegend auf Wissen, Meinun- 
gen, Vorstellungen von auBerhalb des befragten Subjekts gelegenen „Dingen" 
ausgerichtet. Demgegenuber ist es fur die Exploration typisch, daB sie auf den 
befragten Menschen selbst gerichtet ist, der nicht nur als Reflektor, sondern in 
seiner Eigenschaft als Subjekt, als Mitmensch, als Partner Gegenstand des 
ganzheitlichen explorativen Interesses ist. 

Von alien anderen Datenerhebungsverfahren unterscheidet sich die Explora- 
tion dadurch, daB sie nicht wie diese die Antwortmoglichkeiten des Unter- 
suchten auf ein Konzept einengt, das den Erwartungen einer bestimmten 
Theorie Oder den Erfordernissen einer bestimmten Methodologie entspricht. 
Dadurch bleibt den anderen Verfahren der Zugang zur vollen Breite menschli- 
chen Verhaltens verschlossen. 

„Da eine Fremdbeobachtung dieses Verhaltens aus auBeren Grunden meist nicht moglich 
ist, stellt die Exploration einen derwenigen Zugange zu einer durch den method ologischen 
Zugriff noch nicht veranderten seelischen Wirklichkeit dar" (Thomae 1968, 113). 
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Fur die Erforschung der Existenzweise und der Funktion bestimmter ,,i nhaltl i- 
cher" Strukturen des „subjektiven Lebensraumes", des Selbst und der am 
meisten relevanten „thematischen" und Jnstrumentellen" Einheiten innerhalb 
der menschlichen Existenz ist die Exploration unentbehrlich und unersetzbar, 
weil die untersuchten Phanomene dort untersucht werden mussen, 

„wo siealler Voraussicht nach anzutreffen sind, namlich im ,al Itagl ichen' wie u.U. 
auch im ,krisenhaften' Verhalten des Menschen. Dieses in der erforderlichen Extensitat 
und Intensitat von fremden Beobachtern aus zu erfassen, wird jedoch durch hoffentlich 
kaum uberwindbare ethische Vorentscheidungen verwehrt. In dieser Situation muG die 
Wissenschaft versuchen, dem einzig verfugbaren Zeugen, namlich dem Subjekt des 
Geschehens, mehr Glauben zu schenken. Seine Aussagen, die wir durch die Explora- 
tion zu erfassen und zu vertiefen versuchen, stellen von hier aus gesehen die einzige 
sichere Quelle fur die ErschlieGung des Verhaltens in ,naturlichen' Situationen dar" 
(Thomae 1968, 222f.). 

Das schlieGt nicht aus, daG die Exploration in bestimmten ihrer Formen (An- 
amnese) und in bestimmten Phasen (gegen Ende) eine gewisse Standardisie- 
rung erfahren kann. Auch die Exploration kann systematised auf die relevan- 
ten Gesichtspunkte der jeweils vorliegenden Fragestellung eingehen, wobei 
auch eine weitgehende Standardisierung der einzelnen Fragen, unter Umstan- 
den auch der Reihenfolge, vorgenommen werden kann. Prinzipiell mussen alle 
Fragen aber „offene Fragen" bleiben. 

Auch eine Quantifizierung von Explorationsergebnissen ist keineswegs ausge- 
schlossen. So kann z.B. im Verlauf einer Exploration der bisherigen Verkehrs- 
geschichte allmahlich die Zahl der Verkehrsunfalle erfragt werden, an denen 
der Befragte beteiligt war (v. Klebelsberg 1970, S. 45), Oder es kann zur 
Prognose der Ruckfallwahrscheinlichkeit in eine erneute Fahrt in alkoholbe- 
dingt fahruntuchtigem Zustand die groBte im letzten Jahr vor der Untersu- 
chung aufgenommene Menge an alkoholischen Getranken exploriert werden 
(Welzel 1976). AuGer solchen trivialen Quantifizierungsmoglichkeiten beste- 
hen zahlreiche Skalierungsmoglichkeiten von formalen Grundkategorien des 
in der Exploration erfaGbaren Verhaltens eines Menschen in den naturlichen 
zeitlichen Einheiten seines Lebens. Bei einem von Thomae unternommenen 
Versuch, das von verschiedenen Menschen geschilderte Geschehen unter Ab- 
straktion von seinem jeweiligen Gehalt deskriptiv zu erfassen, ergaben sich 
mehrere formale Aspekte des biographischen Geschehens, die auf die naturli- 
chen Einheiten des individuellen Bios - der Flandlung, des Tageslaufes und 
der mehr Oder minder groGen faGbaren Ausschnitte des Lebenslaufes (z.B. 
Formen der Auseinandersetzung mit einer beruflichen Oder familiaren Situa- 
tion) - anwendbar sind. Die Skalen konnen, je nach dem AusmaG der vorhan- 
denen Informationen, wenige (z.B. 5) Oder viele (z.B. 9) Stufen haben (Tho- 
mae 1968, 124-216). 
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4. M ethodische Prinzipien des explorativen Gesprachs 

Ziel der in der Form des Gesprachs angestellten Erkundungsbemuhungen ist 
das konkrete mitmenschliche „lndividuum und seine Welt". Dieses menschli- 
che Individuum wird veranlaGt, Auskunft uber sich und „seine" personlich- 
indi viduel le „Welt" zu geben, uber das, was es erlebt hat und der Erinnerung 
und der Erwahnung fur wert halt, uber seinen „psychologischen Lebensraum" 
(K. Lewin 1936, S. 14ff.; im deutschen Originaltext 1969, 40-50). Das ist 
„alles, was vom Standpunkt des Psychologen fur diese Person existiert" (40), 
der 

,,l nbegriff dessen, was jeweils fur das betreffende Individuum wirksam ist. Fur die 
Aufgabe der begrifflichen Ableitung des Geschehens kann man Wirksamkeit als das 
Kriterium fur psychologische Existenz verwenden: ,Wirklich ist, was wirkt“’ (41). 

Dies erfordert die uneingeschrankte Kooperationsbereitschaft des Befragten. 
Seine Bereitschaft muB vom Explorator gewonnen werden. A lie explorations- 
technischen Anleitungen beschaftigen sich daher damit, wie diese grundlegen- 
de Voraussetzung am besten herzustellen sei. 

Bedingungen fur das Zustandekommen dieser Bereitschaft werden zunachst in 
der Personlichkeit des Explorators gesucht. Verlangt werden: personliche Rei- 
fe, Reichtum an Vorstellungs- und M iterlebensmoglichkeiten (Rowe 1963, 
Blakeney & McNaughton 1971) und an Lebenserfahrung, Kontaktfahigkeit 
und charakterliche Werte wie Vertrauenswurdigkeit (fur alles Vorstehende: 
Taft 1955, Wiley & Jenkins 1964, Steinkamp 1966) und eine Flaltung dem 
Mitmenschen gegenuber, die C. G. Jung vor vielen Jahren (1932) einmal wie 
folgt gekennzeichnet hat: 

„Wi 1 1 der Arzt die Seele eines Anderen fuhren, Oder sie auch nur begleiten, so muB er 
mit ihr Fuhlung haben. Diese Fuhlung kommt nie zustande, wenn der Arzt verurteilt, 
ob er das nun mit so viel Worten laut tut, Oder unausgesprochen im Stillen, andert 
nichts an der Wirkung. Auch das Umgekehrte, namlich dem Patienten unbesehen 
Recht geben, hilft nichts, es wirkt ebenso entfremdend wie das Verurteilen. Fuhlung 
entsteht nur durch vorurteilslose Objektivitat. Das klingt beinahe wie etwas 
Wissenschaftliches. Man konnte es mit einer rein intellektuellen, abstrakten Einstellung 
verwechseln. Was ich aber meine, ist etwas ganz anderes: Es ist etwas Menschliches, 
etwas wie eine Hochachtung vor der Tatsache, vor dem Menschen, der an dieser 
Tatsache leidet, vor dem Ratsel eines solchen M enschenlebens" (Ges. W. 1963, 11, 
366f .). 

Daruber hinaus stellt ein sozialpsychologischer Bedingungszusammenhang eine 
grundsatzlich wichtige Voraussetzung fur das Zustandekommen dieser Be- 
reitschaft dar: Jeder Mensch teilt sich lieber und leichter gegenuber einem 
anderen Menschen mit, wenn er uberzeugt sein darf, daB der andere ihn ver- 
steht, denn nicht verstanden zu werden, birgt in sich fast unvermeidlich die 
Gefahr, falsch und daher ungerecht beurteilt zu werden. 
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„A subject is inevitably hesitant to discuss things which seem to be both outside of the 
experience of the interviewer, and beyond his knowledge" (Kinsey u.a., 1948, 60). 

So ist es denn auch gewiG kein Zufall, daG z.B. die ergiebigsten Explorationen 
mit Homosexuellen von homosexuellen Wissenschaftlern gefuhrt worden 
sind. Das gleiche ist naturlich auch bei anderen Personengruppen zutage getre- 
ten: z.B. bei Alkoholabhangigen, Drogensuchtigen Oder auch bei Ordensleu- 
ten. Cosper (1969) untersuchte die Moglichkeit des Interviewer- Bias systema- 
tisch, indem er das Trinkverhalten seiner 28 Interviewer sehr detailliert erho- 
ben hat. Alle Interviewer waren Alkoholkonsumenten und wurden ausfuhr- 
lich geschult, um das Interview moglichst zu stand ardi si eren. Trotzdem konn- 
ten eindeutige Effekte nachgewiesen werden: starker trinkende Interviewer 
erhalten hohere Quantitatsangaben zum Trinken; die Angaben zur Haufigkeit 
des Konsums variieren nicht mit dem Trinken der Interviewer. Dies ist ein 
Hinweis darauf, daB Quantitatsangaben zum Trinken schwieriger zu erhalten 
sind als Haufigkeitsangaben. Es laGt sich recht genau angeben, worauf sich das 
Vertrauen auf die Verstandnisfahigkeit und -bereitschaft beim Explorierten zu 
grunden pflegt: 

1. Eine (vermutete, angenommene, erlebte) - mindestens partielle - Wesens- 
verwandtschaft zwischen Explorator und Exploriertem. So hat sich z.B. in 
Untersuchungen von Ledvinka (1971, 1972) die Auswirkung von Rassen- 
gleichheit bzw. -Verschiedenheit auf die vom Explorierten gemachten Mit- 
teilungen gezeigt. 

2. Eine (vermutete, angenommene, erlebte) aus - mindestens parti el I er - 
gleichartiger Lebenserfahrung Oder wenigstens 

3. aus Sachkunde und Berufserfahrung erwachsene Vertrautheit mit dem ex- 
plorierten Lebensgebiet. 

Die Vertrautheit mit dem explorierten Lebensgebiet muB der Explorator ge- 
genuber dem Explorierten wahrend der Exploration unter Beweis stellen: 

1. durch sachkundige, intime Kenntnis des betreffenden Lebensgebietes verra- 
tende Fragerichtung, 

2. durch Nachweis seiner Vertrautheit mit typischen Zusammenhangen zwi- 
schen einzelnen Gegebenheiten des betreffenden Lebensgebietes, 

3. durch insider-typischen Wortgebrauch, 

4. durch Vermeidung aller AuBerungen des Erstaunens, der Uberraschung, 
der positiven Oder negativen Bewertung des vom Explorierten berichteten 
Verhaltens Oder Erlebens. 

Der Explorator muB mit der „Welt", in der der Explorierte lebt, vertraut sein: 
mit seinem auBeren Lebensraum, mit seiner sozialen Schicht und seinem Be- 
rufsstand, mit seinen Lebensbedingungen, mit seiner Sprache und seinen 
Wertvorstellungen. Er muB aber auch vertraut sein mit dem Lebensgebiet Oder 
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dem Sachgebiet, dem die Exploration gilt. Es genugt auch nicht, daB der 
Explorator solche Vertrautheit behauptet, sondern diese muB wahrend der 
Exploration, in deren Gestaltung und ihrem Verlauf, in Erscheinung treten, 
muB fur den Explorierten auf Schritt und Tritt spurbar werden, damit die 
„Gemeinsamkeit der angesprochenen Erlebnissphare" (Thomae 1968, 112) 
zum Tragen kommen kann. Kinsey u.a. (1948) gibt dafur ein eindrucksvolles 
Bei spiel: 

„A single phrase from an understanding interviewer is often sufficient to make the 
subject understand this, and such an interviewer wins a record where none would have 
been disclosed to the uneducated investigator. A specific illustration will make this 
more apparent. 

This is the case of the older Negro male whose first answers were wary and evasive. 
When questioned concerning his occupation, he listed a variety of minor jobs which, 
taken in connection with his manner of response, seemed to spell underworld activities. 
We followed up our clue by immediately asking the subject whether he had ever been 
married. We were not satisfied with his denial of marriage, and followed with a ques- 
tion as to whether he had ever lived common law. The easy use of a vernacular term 
made him feel freer to talk, and when he admitted that he had so lived, we asked how 
old he was when he first lived common law. When he said that he was then fourteen, 
our first suspicion concerning his underworld activity was confirmed, and we immedi- 
ately followed up by asking how old the woman was. At this, he smiled and admitted 
that she was thirty-five. Then we remarked, easily and without surprise: ,,She was a 
hustler, wasn't she?" This was the final step necessary for winning complete confi- 
dence. The subject stopped short in his reply, opened his eyes wide, smiled in a friendly 
fashion, and said, ,Well, sir, since you appear to know something about these things, 
I'll tell you straight.' The extraordinary record that we then got of his history as a pimp 
could not have been obtained if the subject had not comprehended that we understood 
the world in which he lived" (60f.). 

Das erfordert vom Explorator viel Einarbeitung und Vorbereitung. Als Bei- 
spiel sei erwahnt, daB Kinsey und seine Mitarbeiter vor Beginn ihrer allein aus 
Explorationen gewonnenen Erhebung mehrere Jahre darauf verwendet haben, 
sich die erforderlichen Sachkenntnisse auf dem von ihnen erforschten Lebens- 
gebiet anzueignen, und ein weiteres voiles Jahr, um sich in die Explorations- 
technik einzuuben (1948, 61). 

„Very often the interviewer’s capacity to secure an accurate history depends upon his 
knowledge of the correlations that usually exist between certain items, and his readiness 
to demand an explanation of any inconsistency that appears in a particular history. To 
illustrate again: one starts by asking the girl how old she was when she turned her first 
trick (but one does not ask how old she was when she was first paid as a prostitute). She 
is then asked how many of the tricks return after their first contacts with her. Consider- 
ably later in the interview there is a question concerning the frequency with which she 
rolls her tricks (robs her customers). The girl who reports that few of the men ever 
return, and who subsequently says that she never robs any of the men, needs to be 
caught up abruptly and assured that you know that it doesn't work that way. If she 
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doesn't roll any of the men, why don't they return to her?This question is likely to 
bring a smile from the girl and an admission that since you appear to know how these 
things work, she will tell you the whole story, which means that she robs every time 
there is any possibility of successfully doing so" (Kinsey u.a., 1948, S. 61 ). 

Zu den genannten personlichen und sozialpsychologischen Voraussetzungen 
rnuG auf seiten des Explorierten hinzukommen die Bereitschuft, sich mitzutei- 
len. Diese Bereitschaft muG zu Beginn der Exploration geweckt und wahrend 
des gesamten Verlaufes unterhalten werden durch die gewissermaGen werbe- 
psychologischen MaBnahmen (B. Spiegel 1965 ) des Informierens und des Mo- 
tivierens: des Informierens uber den Zweck der Untersuchung und des Moti- 
vierens zu aufrichtigen, ehrlichen, wahrheitsgemaGen und vollstandigen Anga- 
ben. Die konkrete Ausgestaltung des Informierens und des Motivierens im 
Zuschnitt auf den konkreten Einzelfall wird je nach dem Untersuchungszu- 
sammenhang und je nach den Besonderheiten des Einzelfalles sehr verschieden 
aussehen konnen und mussen. Hier sind die Unterschiede sehr groG zwischen 
der Gewinnung der Mitarbeit fur eine wissenschaftliche Untersuchung auf der 
einen Seite und der sehr viel schwerer zu gewinnenden Mitarbeit fur eine 
Untersuchung, deren Ergebnis nicht von vornherein und zwangslaufig dem 
Untersuchten zugute kommt. Handelt es sich um die Mitarbeit an einer wis- 
senschaftlichen Untersuchung, so sind oftmals schon die Befriedigung dar- 
uber, vor einem verstandigen Zuhorer uber sich selbst sprechen zu konnen, 
und die Genugtuung daruber, an einem anerkannt wichtigen Unternehmen 
mitzuwirken, eine ausreichende und im allgemeinen leicht zu erreichende Mo- 
tivationsbasis (Kinsey 1948 , 36 ; Whyte 1955 ; Bain 1960 ; Thomae 1968 , 114 ). 
Sehr viel schwieriger ist die Motivation zu wahrheitsgemaGer und vollstandiger 
Auskunft zu erzielen, wenn der Befragte - zu Recht Oder zu Unrecht - 
gerade davon unerwunschte Oder sogar direkt nachteilige Konsequenzen fur 
sich zu befurchten hat. Das ist nicht nur der Fall bei alien Bewerberexploratio- 
nen, sondern in noch viel hoherem MaGe bei Fahrereignungsuntersuchungen, 
bei denen der Untersuchte selbstverstandlich die Entdeckung seiner Ungeeig- 
netheit mit alien Mitteln zu verhindern trachtet, und erst recht bei alien Unter- 
suchungen im gerichtlichen Auftrag - sei es z.B. bei der Sorgerechtszuteilung 
Oder bei der Rekonstruktion des Flerganges eines Schadensereignisses zum 
Zwecke der Schadenersatzregelung im zivilrechtlichen Bereich Oder bei der 
Rekonstruktion der Entstehung und des Ablaufes einer tatbestandsmaBig 
rechtswidrigen Flandlung, der Motive und der geistig-seelischen Verfassung 
des Taters dabei im strafrechtlichen Bereich. Dennoch lehrt die Erfahrung, daG 
es auch in solchen Situationen - sogar in der Regel - moglich ist, eine 
aufrichtige Kooperationsbereitschaft des Befragten zu erzielen, wenn der Fra- 
gende psychologisch geschult ist und die vernehmungspsychologischen Richt- 
linien (Inbau & Reid 1974 ) richtig anwendet: 

„Since he is trained in his task, he will typically sympathize with the suspect, provide 
face-saving rationalizations for any crimes that might have been committed, and indi- 
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cate subtly that he can understand how someone might murder but that lying is the 
lowest form of degeneracy: Such a procedure may sound farfetched, yet in the hand's of 
an expert it is remarkably convincing" (Orne, Thackray, and Paskewitz 1972, 746). 

Die konkrete Ausgestaltung des informierens und Motivierens ist fur die ein- 
zelnen Untersuchungsanlasse und fur die einzelnen Personen zu verschieden, 
um im Rahmen dieses Artikels dargestellt werden zu konnen. Vortreffliche 
Anleitungen dazu sind in der Literatur leicht zuganglich. Weithin bekannte 
Anleitungen zur Explorationstechnik sind: Richardson, Dohrenwend, and 
Klein, 1965; Bingham, and Moore, 1. ed. 1931, 4. ed. with the collaboration of 
J. W. Gustad, 1959; Kahn & Canned 1957 (10. printing 1966); Fear 1953, sec. 
ed. 1978. Weniger bekannt ist, dal$ es gerade fur die Exploration schwieriger, 
heikler Sachverhalte, bezuglich deren beim Befragten starke Tendenzen zur 
Verheimlichung bestehen, sehr gute und ganz aufs Praktische ausgerichtete 
Anleitungen gibt: Kinsey, Pomeroy & Martin 1948, 35-62, deutsche Ausga- 
be 1964, 22-52; Inbau & Reid 1974. 

Als Voraussetzung fur die Objektivitat und die Differenziertheit der Auswer- 
tung der Explorationsbefunde ist es erforderlich, Aufnahmen der Exploration 
auf Tontragern und maschinenschriftliche Ubertragungen anzufertigen. 
Froehlich (1958) verglich fur 97 anamnestische Explorationen, die zur Vorbe- 
reitung von psychologischen Beratungen durchgefuhrt worden waren, die 
Aufzeichnungen der therapeutischen Berater mit den Tonbandaufnahmen die- 
ser Explorationen. Seine Untersuchung kam zu dem Ergebnis, daB weniger als 
ein Drittel der Inhalte im schriftlichen Bericht auftauchte, diese aber mit 75% 
bis 94% Korrektheit. Es lieB sich jedoch keine klare Beziehung zwischen der 
Wichtigkeit der Daten und ihrer Wiedergabe durch den Therapeuten im 
schriftlichen Bericht erkennen. Froehlich fand in seiner Erhebung keinen si- 
gnifikanten Unterschied zwischen erfahrenen und weniger erfahrenen Bera- 
tern. Zu einem gleichartigen Ergebnis kommt Thomae (1968): 

„Als Ergebnis langer Erfahrungen in der Handhabung der explorativen biographischen 
Anamnese muft aber leider darauf verwiesen werden, daft Gedachtnisprotokolle fur 
eine systematische Auswertung vollig unzureichend sind und das Mitschreiben bzw. 
-stenographieren erhohte Anforderungen an den Untersucher stellt und das Gesprach 
sehr stort. Auch hierbei kann unter Auswertung aller fruher genannten Motivationen 
die zunachst unmoglich erscheinende Zustimmung erreicht werden. in der Regel wird 
bei einem gut gefuhrten Gesprach das mitlaufende Tonband vergessen" (115). 

Durch die vorstehenden Ausfuhrungen ist auch 

„die in Deutschland und uberhaupt im kontinentalen Europa vorherrschende Ansicht, 
Exploration sei eine Kunst, welche man nicht lehren und lernen und damit auch nicht 
empirisch untersuchen konne" (Schraml 1964, 869), 

widerlegt. A 1 1 e praktischen, kunstlerischen und wissenschaftlichen Fertigkei- 

ten sind lehrbar und lernbar, wenn der Erfolg naturlich auch je nach den 
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mitgebrachten Person I ichkeits- und Begabungseigenschaften unterschiedlich 
sein wird. Das ist fur die Explorationstechnik nicht anders als fur die Ausbil- 
dung in ausubender Musik Oder in Mathematik, ohne daB den Wissenschaft- 
scharakter mathematischer Methoden jemals einer aus diesem Grund zu be- 
streiten sich veranlaBt gesehen hatte (W. Metzger 1942). Hinweise zur Didak- 
tik der Ausbildung finden sich u.a. bei Schraml (1964, 889), Rechetnick & 
Barkus (1966), Soudijn u.a. (1970), Thorne (1970), Wolfe (1970), Meier 
(1972), Schuller & Rosemeier (1973), Froehlich & Bishop (1973). Von erfolg- 
reicher Ausbildung fur die Durchfuhrung von Explorationen berichtet Kinsey 
(1948, 61 f.). Ausbildungserfolge in der Auswertung von biographischen Ex- 
plorationen beweist ein Versuch von U. Lehr (1964), der S. 26 naher geschil- 
dert wird. Es waren Explorationsausschnitte, die Monate Oder Jahre spater 
gewonnen worden waren, Ausschnitten aus einer Exploration der gleichen 
Personen zu einem fruheren Zeitpunkt und zu anderen Themen zuzuordnen. 
Die Trefferquote betrug bei 30 Studenten des ersten Semesters der Psychologie 
67,6%, bei den in psychologischer Diagnostik ausgebildeten Hauptdiplom- 
Kandidaten dagegen 835%. 



5. Auswertung 

Die methodischen Einwande gegen eine verbreitete Anwendung der Explora- 
tion ergeben sich im wesentlichen aus Bedenken gegen den Wahrheitsgehalt 
(die Ehrlichkeit und die objektive Richtigkeit) der Mitteilungen. Es handelt 
sich dabei vor allem um zwei prinzipielle Fehlerquellen: Verfalschung und 
Verheimlichung. Der Tatbestand der Verfalschung liegt vor, wenn der Befrag- 
te zwar richtige Angaben machen konnte, sich aber entschlieBt, stattdessen 
eine bewuBt entstellte Darstellung zu geben, Oder etwas tatsachlich Nichtvor- 
handenes zu behaupten, wahrend der Tatbestand der Verheimlichung vorliegt, 
wenn er sich entschlieBt, den erfragten Sachverhalt ganz Oder teilweise wahr- 
heitswidrig in Abrede zu stellen. Die Tendenzen zur Verfalschung und zur 
Verheimlichung spielen naturgemaB eine auBerordentlich unterschiedliche 
Rolle, je nachdem ob die Exploration zu einem neutralen wissenschaftlichen 
Zweck, bei zugesicherter Anonymitat bei der Verwertung der Explorationser- 
gebnisse, geschieht Oder in einer Situation des realen Lebens, in der fur den 
Untersuchten elementare vitale Interessen auf dem Spiele stehen. Moglichen 
Verfalschungs- und Verheimlichungstendenzen muB schon bei der Erhebung 
der Explorationsbefunde mit explorationstechnischen MaBnahmen entgegen- 
gewirkt werden. Dennoch ist es in Situationen, die dem Befragten zu einer 
absichtlichen Verfalschung Oder Verheimlichung AnlaB geben konnen, erfor- 
derlich, den gegebenen Bericht an FI and der in der Aussagepsychologie erar- 
beiteten Kriterien fur den Wahrheitsgehalt von Aussagen (Undeutsch 1967) zu 
uberprufen (Thomae und Schmidt 1967, 354; Bocher 1968; Kunkel 1978, 
96-110). Eine weitere Uberprufungsmoglichkeit besteht im Vergleich der 
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M itteilungen mit den Ergebnissen empirischer Forschungen auf dem betref- 
fenden Lebensgebiet. Ein Beispiel dafur war oben schon mit Kinseys Hinwei- 
sen fur die Exploration von weiblichen Prostituierten („Beischlafdiebstahl") 
gegeben worden. Die Uberprufung des Wahrheitsgehaltes der Mitteilungen 
durch den Vergleich mit den Ergebnissen empirischer Forschungen ist nicht 
nur wahrend der Exploration erfolgreich einzusetzen, sondern dient auch 
nachtraglich zur Uberprufung des Wahrheitsgehaltes der Explorationsbefun- 
de. Darauf hat ebenfalls schon Kinsey (1948) hingewiesen: 

„When 90 to 95 per cent of the persons in any social level report histories which agree 
with the patterns shown in Chapter 10, they not only establish the nature of the group 
Patterns, but establish the validity of their own reports as well" (129). 

Andere Beispiele gibt Kunkel (1978, 65-89, 99-102, 104f.): Die Behauptung 
eines Kraftfahrers z.B., die abgeurteilte Trunkenheitsfahrt sei die erste seines 
Lebens gewesen, ist an sich schon unwahrscheinlich wegen der hohen Dunkel- 
ziffer von Trunkenheitsfahrten (1:400). Sie wird noch unwahrscheinlicher, 
wenn man in Rechnung zieht, daB die BAK sehr hoch war und daB er nichts- 
destoweniger eine langere Strecke unauffallig gefahren war und auch selbst 
bekundet, er habe sich voll fahrtuchtig gefuhlt. Da auch das Fahren unter 
AlkoholeinfluB gelerntes Verhalten ist, muB ein Fahrer bereits haufiger unter 
AlkoholeinfluB gefahren sein, bis es ihm gelingt, eine langere Strecke mit einer 
so hohen BAK unauffallig zuruckzulegen. Beispiele fur diese Art der Uber- 
prufung von Explorationsangaben lassen sich in groBer Zahl aus fast alien 
Lebensbereichen finden. 

Fur die Auswertung von Explorationsdaten fur die personlichkeitspsychologi- 
sche Forschung hat Thomae (1968) eine umfassende und groBtenteils bahnbre- 
chende Anleitung gegeben. uber die oben bereits erwahnte Einstufung des 
explorativ erhobenen biograph ischen Geschehens unter mehreren formalen 
Gesichtspunkten (1968, 124-216) hinaus hat Thomae Listen von Dimensio- 
nen entwickelt zur Kennzeichnung der i nhaltl ichen Aspekte (unter Gesichts- 
punkten der Expansion, des strukturellen Aufbaus und der qualitativen Di- 
mensionen) des subjektiven Lebensraumes (S. 223-256. Tab. 17-20) und des 
Selbst (S. 256-282, Tab. 22-28). Er hat weiter gezeigt, daB explorativ ge- 
wonnenes biographisches Material sieben fundamentalen thematischen Einhei- 
ten zugeordnet werden kann (292-328) und daB aus diesem Material die 
instrumentellen Einheiten Oder Aspekte des personalen Geschehens, die er als 
„Daseinstechniken" bezeichnet, herausgearbeitet werden konnen. „Daseins- 
techniken" sind die personlichkeitsspezifischen Arten und Weisen, wie sich 
das Individuum sein Leben innerlich wie auBerlich „moglich" bzw. „ertrag- 
lich" zu machen sucht. Thomae hat uber 20 Typen oder Klassen solcher in- 
strumentellen Einheiten herausgearbeitet, die den verschiedenen Ebenen einer 
biograph ischen Analyse (Tageslaufen und den groBeren biograph ischen Ab- 
schnitten) gemeinsam sind, und diese zu 5 Typen Oder Grundklassen funda- 
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mentaler instrumenteller Einheiten zusammengefaBt (349-366). Bei Anwen- 
dung dieser Auswertungskategorien kann das in Explorationen gewonnene 
Material wichtige und einzigartige Beitrage zur Entwicklungsforschung, zur 
Personlichkeitsforschung und zur Individualdiagnose der untersuchten Men- 
schen liefern. 

Die Verarbeitung der Explorationsbefunde zu einer Diagnose Oder Prognose 
setzt weiter voraus, daB der diagnostische Oder prognostische Wert des Befun- 
des - fur sich allein Oder in Verbindung mit anderen Befunden - aus empiri- 
schen Untersuchungen bekannt ist. Ein mustergultiges Beispiel fur die Verar- 
beitung der prognostischen Bedeutsamkeit von biographischen Daten und ih- 
rer Gewichtung fur die Erstellung einer Prognose hat Kunkel fur die „Ruck- 
fallprognose bei Trunkenheitstatern im StraBenverkehr" (1977) gegeben. 



6. Lei stu ngsfahi gkeit der explorativen M ethoden 

Fur die Bemessung der Leistungsfahigkeit messender diagnostischer Verfahren 
wird in der klassischen Testtheorie unterschieden zwischen der Leistungsfa- 
higkeit des betreffenden Verfahrens als MeBinstrument (MeBgenauigkeit in 
bezug auf eine gegebene Population = Reliabilitat) und seiner Leistungsfahig- 
keit fur den vorgesehenen Zweck (Vorhersagegenauigkeit, Tauglichkeit = Va- 
liditat). Die ubliche Behandlung der Objektivitat als eines weiteren Gutekrite- 
riums (z.B. Lienert 1969, 13) ist gewiB verfehlt; Objektivitat ist nur eine Kom- 
ponente der Reliabilitat, genauer: eine von mehreren Arten reliabilitatssenken- 
der Fehler (Ekman 1947, 158f.). 

Es gibt eine unubersehbar groBe Zahl von Arbeiten, in denen diese Testpara- 
meter fur einzelne explorative Techniken Oder fur einzelne Explorationsdaten 
berechnet worden sind. Es bedarf zuvor aber einer kritischen Besinnung dar- 
auf, ob die Leistungsfahigkeit eines so andersartigen methodischen Instru- 
ments, wie es die explorativen Techniken darstellen, durch diese MaBwerte 
uberhaupt sinnvoll gekennzeichnet werden kann. Es darf nicht aus dem Auge 
verloren werden, daB die klassische Testtheorie, der die Begriffe Reliabilitat 
und Validitat entstammen, zur Bestimmung der Leistungsfahigkeit von mes- 
senden Verfahren entwickelt worden ist, d.h. von Verfahren, die in ihrer 
Durchfuhrung und Auswertung vollstandig Oder weitgehend stand ardi si ert 
sind, die in einer vom „naturlichen" Leben abgehobenen, kunstlichen, gleich- 
artig und konstant gehaltenen Situation durchgefuhrt werden und die sich 
darauf beschranken, einen mehr Oder minder klar umgrenzten Person I ichkeits- 
bereich Oder sogar nur eine spezielle Begabungskomponente zu erfassen. 
Grundlegend fur die klassische Testtheorie ist die Voraussetzung der Verfug- 
barkeit „aquivalenter", d.h. vergleichbarer Messungen derselben Eigenschaft. 
In alien genannten Flinsichten sind die explorativen Techniken nicht nur an- 




Exploration 



337 



ders, sondern geradezu entgegengesetzt beschaffen. Schon die projektiven dia- 
gnostischen Verfahren haben sich fur eine Bemessung ihrer diagnostischen 
Leistungsfahigkeit nach den Kriterien der klassischen Testtheorie als weitge- 
hend unzuganglich erwiesen. Die unter Anwendung dieser testtheoretischen 
Verfahren bei den projektiven Tests erzielten Ergebnisse sind bekanntlich al- 
lesamt sehr unbefriedigend geblieben. Der Grund dafur ist ein doppelter: Zum 
einen ist eine Berechnung der Kennzahlen der klassischen Testtheorie nur 
sinnvoll, wenn die Befahigung des Psychologen zur Durchfuhrung und zur 
Auswertung dieser Verfahren von vollig untergeordneter Bedeutung ist, so 
dal$ das Verfahren von jedem Psychologen „gleich gut" angewandt werden 
kann - Oder es fur die Durchfuhrung und die Auswertung uberhaupt nicht 
einmal eines Psychologen bedarf. Wenn namlich zwischen den Psychologen 
erhebliche personliche Unterschiede hinsichtlich ihrer Qualifikation (auf 
Grund von Begabung, Ausbildung, Ubung und Erfahrung) fur die Durchfuh- 
rung und die Auswertung eines Verfahrens bestehen, so kann jede MaRzahl fur 
die Leistungsfahigkeit eines Verfahrens nur einen Durchschnittswert aus den 
Leistungen von Testanwendern der allerverschiedensten Qualitatsstufen dar- 
stellen. Es besagt aber selbstverstandlich nichts gegen den Wert eines Verfah- 
rens, wenn sich bei Uberprufungen seiner Leistungsfahigkeit herausstellt, dal3 
einige damit hervorragend zu arbeiten verstehen, wahrend viele andere nur 
sehr malSige Erfolge damit erzielen und einige andere sogar zu vorwiegend 
falschen Ergebnissen damit gelangen. Der Validitatskoeffizient ist in solchen 
Fallen nur ein nichtssagender Mittelwert - nichtssagend, weil er die viel 
belangreichere Tatsache uberdeckt, dal5 es Testanwender gibt, die mit dem 
Test hervorragende Ergebnisse zu erzielen verstehen, wahrend es gleichzeitig 
andere gibt, in deren Handen die Testanwendung lediglich Unfug ist. Ein 
Bei sp i el dafur ist die Untersuchung von Magnusson (1959) zur Validitat des 
TAT: 

An 63 mannlichen Studenten aus einem Hochschulinternat wurde der TAT durchge- 
fuhrt. Die Testergebnisse wurden von 4 Psychologen ausgewertet, die ihre Kompetenz 
fur TAT-Auswertungen erklart hatten. Die gleichen Studenten wurden von je 10 bis 18 
Kommilitonen, die seit 2 Jahren im Internat mit ihnen zusammenlebten, in 19 Person- 
lichkeitsvariablen eingestuft. Sowohl die Psychologen als auch die Kommilitonen hat- 
ten fur die Einstufung bei alien 19Variablen eine7stufigeSkala zu verwenden. Fur 
jedes Individuum wurde fur jede Personlichkeitsvariable der Mittelwert der Einstufun- 
gen durch seine Kommilitonen berechnet. Diese Mittelwerte bildeten die Kriterienva- 
riable. Die Einstufungen der 4 Psychologen wurden mit den Kriterienvariablen korre- 
liert. Diese Korrelationskoeffizienten sind Validitatskoeffizienten. 

Die Validitatskoeffizienten fielen fur die 4 Psychologen sehr unterschiedlich aus. Bei 
dem Psychologen B trat kein einziger negativer Korrelationskoeffizient auf, von seinen 
positiven Korrelationen waren 8 auf dem 10%-Niveau Oder einem noch hoheren Ni- 
veau signifikant. Der Psychologe A hatte hingegen ebenso viele positive wie negative 
Koeffizienten. Die Verteilung der von ihm erreichten Validitatskoeffizienten entspricht 
genau einer Zufallsverteilung (89-91, 105-107). 
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Fur diagnostische Verfahren dieser Art gilt der Satz von Vernon (1957): 

it is hardly possible to dissociate the test from the tester. One clinical psychologist 

does weil with interviewing or with Rorschach, another with Thematic Apperception 
or drawings, another with deterioration tests or expressive movements and so on" 
(205). 

Ein anderes sehr eindrucksvolles Beispiel ist die Beurteilung des intellektuellen 
Niveaus mit Hilfe der graphologischen Diagnostik. 

in einer Untersuchung von Michel (1969), an der 7 Diplom-Psychologen, die zusatz- 
lich eine grundliche graphologische Ausbildung genossen hatten und uber ausreichende 
praktische Erfahrung auf diesem Gebiet verfugten, teilgenommen hatten, betrug der 
Korrelationskoeffizient zwischen den graphologischen Schatzungen des Intelligenzni- 
veaus und den Gesamtstandardwerten des IST, die als Kriterienvariable genommen 
worden sind, beim besten Graphologen + .57, beim schlechtesten - .29. Dieser Befund 
ist interessant, denn er besagt, daft der eine Graphologe recht gut zur Einschatzung des 
intellektuellen Niveaus auf Grund der Handschrift in der Lage war, wahrend am ande- 
ren Ende der Skala ein Graphologe steht, dessen Urteil in der Mehrzahl der Falle in der 
verkehrten Richtung lag. Was besagt demgegenuber der durchschnittliche Validitatsko- 
effizient von .16? Er verdeckt das wahre Ergebnis der Untersuchung. 

Die Frage nach der Reliability und der Validitat eines Verfahrens ist uberhaupt 
nur sinnvoll, wenn es sich um ein stand ardi si ertes Verfahren handelt, wahrend 
die explorativen Techniken qualitativ (dem Modus nach) eine auRerordentliche 
Spielbreite haben. Ein Verfahren, das von Mensch zu Mensch von Mai zu Mai 
wechselt, kann einer statistischen Uberprufung im klassischen Sinne uber- 
haupt nicht unterzogen werden, weil es keine feste und gleichbleibende Gestalt 
hat. „Every interview is a unique and unreproducible encounter" (Lopez, 
1965, 8). Auch ist bei keinem anderen diagnostischen Verfahren der Verwen- 
dungszweck so vielfaltig. So vielfaltig wie die Verwendungszwecke, sind na- 
turlich auch die Validitatskoeffizienten. Selbst fur den Teilbereich der eig- 
nungsdiagnostischen Exploration betonen Bolton & H i key (1969): 

..Interviews are not generally predictive: that is, they are not generally valid. Rather 
their validity must be determined in a given situation, for particular positions, and 
following specified procedures" (501). 

Ein anderer Grund fur die Schwierigkeit der Anwendung der MaRstabe der 
klassischen Testtheorie auf projektive Verfahren ist, daft Voraussetzung jeder 
Validitatsbestimmung ist, daR eine vom zu prufenden diagnostischen Verfah- 
ren unabhangige, ihrerseits reliable und mit dem angezielten psychologischen 
Konstrukt moglichst identische Oder wenigstens hochkorrelierende Kriterien- 
variable zur Verfugung steht. Daran gebricht es schon bei projektiven Tests in 
aller Regel, denn je komplexer das diagnostische Verfahren ist, um so komple- 
xer und weniger klar umgrenzt ist der Komplex der psychologischen Kon- 
strukte, die damit erfaRt werden konnen, wobei das gleiche diagnostische 
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Verfahren bei verschiedenen Menschen sogar verschiedene Ausschnitte aus 
dem Gesamt ihrer personalen Struktur erfassen kann, um so unmoglicher, fur 
den Komplex der erfaRten uberdauernden personalen Sachverhalte eine Krite- 
rienvariable zu finden Oder einen fur alle untersuchten Individuen gleichen 
Komplex von solchen. Ein Vergleich mit Einzelkriterien kann die Leistungsfa- 
higkeit der Exploration prinzipiell nicht in Erscheinung treten lassen. Mit 
Recht betont Wellek (1958): 

„Ein ,ganzheitl iches' Verfahren wie die (echte) Exploration kann der Natur der Sache 
nach nur iiberlegen, ja sogar nur brauchbar sein, wenn das Erkenntnisziel - der 
gefragte Gegenstand - gleichfalls ein ganzheitliches ist" (27). 

Daraus wird deutlich, daft die MaRstabe der klassischen Testtheorie auf Ver- 
fahren, die einerseits Anspruche an die Qualifikation des Untersuchers und 
Auswerters stellen und andererseits selbst sehr komplex, vielgestaltig, von Fall 
zu Fall wechselnd sind, entweder uberhaupt nicht Oder allenfalls unter vielen 
Vorbehalten und mit nur sehr beschrankter Aussagekraft anwendbar sind. 

Gilt das alles schon ganz allgemein fur alle in der Durchfuhrung und Auswer- 
tung nur wenig standardisierten Verfahren, so gilt es in hochstem MaRefur die 
Exploration, die einer weitgehenden Standardisierung nicht unterworfen wer- 
den kann, ohne gleichzeitig denaturiert zu werden. Man muB daher gerade im 
Falle der Exploration nach anderen Bewahrungskriterien Ausschau halten. 
MaGwerte fur Reliabilitat und Validitat konnen nur randstandige Bedeutung 
haben und sind wegen der Vielgestaltigkeit der explorativen Techniken und 
der Vielzahl der Verwendungszwecke ohnehin nur fur den speziellen Fall, fur 
den sie ermittelt worden sind, aussagefahig. 



6.1 Reliabilitat 

Fur die Bestimmung der Reliabilitat ist Voraussetzung, daB ,,aquivalente", 
d.h. vergleichbare Messungen derselben Eigenschaft zur Verfugung stehen. Es 
stehen vier empirische Methoden zu ihrer Bestimmung zur Verfugung: die 
Testwiederholung, der Paralleltestvergleich, die Testaufspaltung und die Po- 
pulationsaufspaltung nach Flusen (1949, 62-70, 75), wovon die letztgenannte 
im Fach unbekannt geblieben ist und deshalb auch keine Anwendung erfahren 
hat. Alle diese Methoden sind auf explorative Verfahren nicht anwendbar. 

Die Testwiederholung verlangt, daB derselbe Test zu einem spateren Zeit- 
punkt nochmals unter genau den gleichen Bedingungen angewandt wird. Der- 
gleichen ware nur annaherungsweise bei einem streng standardisierten Inter- 
view, aber nicht bei einer aus dem unmittelbaren zwischenmenschlichen Kon- 
takt lebenden Exploration moglich, weil jede Exploration in einem lebendigen 
Austausch von Fragen und Mitteilungen besteht. Kein Mensch antwortet aber 
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wie eine Grammophonplatte in der zweiten Exploration genauso wie in der 
ersten. Jede Anderung der Art und Weise des Antwortens hat aber eine Ande- 
rung der Fragenzahl und der Fragenformulierung des Explorators zur Folge. 
Deshalb kann niemals der gleiche Satz von Fragen in der gleichen Reihenfolge 
und in der gleichen Formulierung unter gleichen Bedingungen wiederholt 
werden. 

Die Paralleltestmethode setzt voraus, daR ein Paralleltest vorhanden ist, der 
aus aquivalenten Items besteht. Auf die Exploration angewandt, muRte entwe- 
der der gleiche Explorator zwei Satze aquivalenter Fragen haben Oder der 
gleiche Fragensatz muRte von zwei Exploratoren den gleichen Personen vorge- 
legt werden. Das erste geht nicht, weil es uberhaupt keine Methode gibt zur 
Uberprufung der Paral lei itat der beiden Fragensatze. Das zweite geht nicht, 
weil die gleichen Personen nicht annahernd zum gleichen Zeitpunkt von einem 
anderen Explorator in der gleichen Weise (hinsichtlich des Zwecks, der Dauer, 
der Zahl und der Art der behandelten Themen, der Reihenfolge der Fragen, 
der Fragenformulierung, der Art des zwischenmenschlichen Kontaktes usw.) 
exploriert werden konnen. Vielmehr werden verschiedene Exploratoren un- 
vermeidlich personlichkeitsspezifisch verschieden explorieren und die Explo- 
rierten auf verschiedene Exploratoren verschieden reagieren, wie schon Nietz- 
sche wuRte (Menschliches, Allzumenschliches, Aph. 374) und hernach Klages 
(1926) weiter ausgefuhrt hat: 

„M it wieviel Menschen einer in Beruhrung zu kommen pflegt, uber ebensoviel ver- 
schiedene Physiognomien verfugt seine Seele. Wir wollen uns an Beispielen verstand- 
lich machen. - Die Art und Weise, wie man auf eine und dieselbe Frage Antwort gibt, 
hangt ganz wesentlich von demjenigen ab, der die Frage stellt. Einen und denselben 
Vorgang erzahlen wir diesem Zuhorer nicht mit genau den namlichen Worten als 
jenem" (19). 

Die Exploration des einen ist naturnotwendig anders als die des anderen. Es 
liegen also gerade keine „Parallelen Tests" vor, d.h. Tests, die sich gleichen 
„wie ein Ei dem anderen" - ganz abgesehen davon, daR sich die testtheoreti- 
schen Kennwerte fur Paral lei itat von Tests 

(M X| = Mx 2 , s X| 2 = s x /, r SiX2 = r XjX4 , r X[Y = r x ,y) 

fur Explorationen jedes Sinnes entbehren und sich ubrigens auch gar nicht 
berechnen lassen. 

Es hat nicht an Versuchen gefehlt, die Vielzahl der reliabilitatssenkenden Feh- 
ler, die bei den explorativen Methoden eine Rolle spielen konnen, in einer 
komplizierten Formel zu vereinigen, um auf diese Weise trotz der hohen 
Komplexitat der explorativen Methoden doch noch die Reliabilitat berechnen 
zu konnen. Fur Falle, in denen die Antworten der Befragten quantifiziert 
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werden konnen durch Zuordnung einer MaGzahl (= Rohwert), sieht Fleiss 
(1970) die Rohwerte als zusammengesetzt an aus folgenden Parametern 

|x = eine additive Konstante, 

a = die Auswirkung des personspezifischen Explorationsstils des Explorators auf die 
Antworten des Explorierten und dadurch auf die Bewertung der Antworten, 

P = die Kriterien, die der Explorator ublicherweise bei der Bewertung der Antwor- 
ten anwendet, 

y = die resultierende Wirkung des Kompromisses, den der Explorator zu schlieBen 
hat zwischen den Anforderungen der Exploration und den Anforderungen der 
Bewertung der Antworten (fur eine genaue Auswertung der Exploration ist es 
wichtig, dal$ die Antworten des Explorierten vollstandig mitgeschrieben werden. 
Der Exploration hingegen bekommen die durch das N achschreiben bedingten 
langeren Sprechpausen schlecht), 

d = die Zufallsverteilung der individuellen Eigenarten der Explorierten, 
e = ein ZufallseinfluB bei der Quantifizierung 

und folgenden Interaktionsausdrucken: 

ad = die Interaktion zwischen Explorator und Exploriertem, die sich einerseits in der 
Weise ausdrucken kann, dal$ der Explorator im Hinblick auf die Besonderheiten 
des Explorierten von seinem habituellen Explorationsstil abweicht, und an- 
dererseits in der Weise, dal$ der Explorierte selbst bei gleicher Fragestellung 
gegenuber einem Explorator anders antwortet als beim anderen, 
pd= die interaktion, derzufolge der Explorator moglicherweise bei verschiedenen 
Explorierten verschiedene Bewertungskriterien anwendet, 
yd = die unterschiedliche Gestaltung des Kompromisses im Hinblick auf verschiedene 
Explorierte. 

Daraus ergibt sich, date der im Falle einer Quantifizierung eines Explorations- 
befundes gegebene Wert X sich wie folgt zusammensetzt 

X = |r + a+ (3 + Y + d + (ad) + ((3d) + (yd) + e. 

Es ist offensichtlich, dal? die einzelnen testtheoretischen Parameter und Inter- 
aktionsausdrucke fur die konkreten Einzelfalle nur schwer mit Zahlen ausge- 
fullt werden konnten. Und wenn dies moglich ware, ware eine solche Berech- 
nung auch nur fur explorative Techniken moglich, die in Zahlenwerte (scores) 
ausmunden. Und selbst bei solchen explorativen Techniken ware der dann 
gewonnene Zahlenwert von hochst fragwurdiger Bedeutung, denn er vereinigt 
die Leistungen „guter" und „schlechter" Explorationsfuhrer und die Antwor- 
ten ergiebiger und unergiebiger, selbstandiger und beeinfluBbarer, aufrichtiger 
und unaufrichtiger usw. Explorationsteilnehmer. Es ist darum auch nicht ver- 
wunderlich, wenn in Sammel referaten zum Wert der Exploration fur die Be- 
rufseignungsdiagnostik (Wagner 1949, Ulrich und Trumbo 1965) immer wie- 
der festgestellt wird, dal? nur in wenigen Untersuchungen Rel iabi I itatskoeffi- 
zienten mitgeteilt werden. Bei den von Wagner referierten 106 Untersuchun- 
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gen enthielten nur 25 uberhaupt quantitative Angaben. Die mitgeteilten Relia- 
bilitatskoeffizienten lagen in Fallen der Beurteilung umschriebener Merkmale 
zwischen .23 und .97, fur eine pauschale Eignungsbeurteilung zwischen .20 
und .85. Mayfield (1964) kommt in einem Sammelreferat, ebenfalls uber die 
Bedeutung der Exploration bei der Bewerberauslese fur berufliche Positionen, 
zu dem Ergebnis, daB allgemeine Beurteilungen der Eignung eines Bewerbers 
auf der Basis unstrukturierter Explorationen und ohne weitere Vorinformatio- 
nen eine extrem geringe Inter-Rater-Reliabilitat aufwiesen und daB die glei- 
chen Explorationsdaten von verschiedenen Beurteilern in unterschiedlicher, in 
einigen Fallen sogar in entgegengesetzter Weise interpretiert und gewichtet 
werden. Dieses Ergebnis sol Ite indessen nicht als Flinweis auf eine geringe 
Reliabilitat der Exploration genommen werden, sowenig wie es ublich ist, die 
Tatsache, daB verschiedene Kliniker bei der Beurteilung von MMPI-Profilen 
nur geringe Ubereinstimmung zeigen, gegen die Reliabilitat des MMPI als 
Untersuchungsinstrument ins Feld zu fuhren. Denn naturlich kann man auch 
die mit anerkanntermaBen hochreliablen MeBverfahren gewonnenen Befunde 
diagnostisch falsch verwerten. 



Es gibt andere methodische Moglichkeiten, sich von der Reliabilitat (wenn 
man schon bei diesem Begriff bleiben will) der Exploration ein Bild zu ma- 
chen. U. Lehr (1964) hat einen Versuch unternommen, der als eine der Natur 
der Exploration gemaBe Abwandlung der Testwiederholungsmethode angese- 
hen werden kann. 

Das Versuchsmaterial bestand aus den Explorationen von 3 weiblichen Personen. Diese 
Personen 

waren zur Zeit der Exploration allegleich alt: 29Jahre; 

alle hatten die gleiche Schule besucht und im gleichen Jahr Abitur gemacht. 

Ebenso erhielten alle drei eine eingehende Berufsausbildung, gaben jedoch mit 

dem Zeitpunkt der H eirat die Berufstatigkeit auf; 

alle hatten Kinder. 

Aus den Explorationen dieser 3 Frauen wurden je 3 Ausschnitte maschinenschriftlich 
ubertragen, die sich jeweils bezogen 

auf die fruhe Kindheit bis zum ersten Schultag, 
auf die Situation der Berufswahl, 
auf die Situation der Partnerwahl. 

Die zur gleichen Person gehorenden Explorationsausschnitte waren mit der gleichen 
Signatur kenntlich gemacht. 

AuBerdem erhielten die Versuchspersonen die maschinenschriftlichen Ubertragungen 
von AuBerungen der gleichen Personen, die einige Wochen, zum Teil ein Jahr spater 
erhoben worden waren als der Lebenslauf. Diese AuBerungen bezogen sich 
auf soziale Einstellungen, 

auf die Bewertung des bisherigen Lebens und auf die Zukunftsorientierung. 

Diese AuBerungen waren nicht signiert. 
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Diese Materialien wurden einer Gruppe von 30 diagnostisch geschulten Hauptdiplom- 
Kandidaten ubergeben mit der Aufgabe, diese Ausschnitte jenen 3 Personen zuzuord- 
nen, von denen sie Ausschnitte aus der fruheren Exploration erhalten hatten. Sowohl 
dieAuszugeaus den Explorationen zum Lebenslauf als auch diespater erhobenen 
AuBerungen waren von alien Informationen gereinigt worden, die als Hinweise auf die 
Identitat der Personen hatten dienen konnen. Von den 630 vorgenommenen Zuord- 
nungen waren 515 =83,5% richtig. 

Die in der Exploration ersichtlich werdende Verhaltensgestalt kann somit als 
ein Spiegelbild bestimmter Verhaltenstendenzen, spezifischer Grade, Formen 
und Richtungen der Aktivitat, bestimmter Interessenbevorzugungen und Nei- 
gungen angesehen werden. Da der Gegenstand der spater aufgenommenen 
AuBerungen vollig von dem der Exploration des Lebenslaufes abwich, manife- 
stiert sich offensichtlich in den Explorationsausschnitten unabhangig von dem 
konkreten Inhalt eine durchgangige personlichkeitsspezifische Auspragung 
dieser Tendenzen so eindeutig, daB eine Zuordnung von solchen AuBerungen 
zu anderen, die zeitlich und inhaltlich von jenen deutlichen Abstand zeigen, 
moglich ist. Thomae (1968) interpretiert dieses Versuchsergebnis folgender- 
maBen: 

„Die Exploration liefert also, wenn sie kunstgerecht und in einer fur den Explorierten 
akzeptablen Motivations! age durchgefuhrt wurde, kein ad hoc und kein bewuBt Oder 
willkurlich zurechtgemachtes Material. Sie .entfaltet' vielmehr zumindest einen gewis- 
sen Ausschnitt aus den Verhaltensweisen des Individuums, den Situationen, so wie sie 
das Individuum erlebt, und den Zielsetzungen, von denen diese Verhaltensweisen her 
verstanden werden mussen" (119). 

Sehr grundlich hat sich bezuglich der Zuverlassigkeit der durch Explorationen 
erhobenen Daten Kinsey vergewissert. Er hatte den einzigartigen Vorteil, ein 
sehr groBes Explorationsmaterial zur Verfugung zu haben (im Laufe der Jahre 
1938 bis 1947 hatten er und seine 3 Mitarbeiter 12214 Explorationen durchge- 
fuhrt), das zu mancherlei Kontrolluntersuchungen Gelegenheit gab. 

a) 162 Personen wurden nach Ablauf einer langeren Zeit (18 Monate bis 7 
Jahre) einer Zweitbefragung unterzogen. Die Ergebnisse sind in Tab. 13 
(122f.) zusammengestellt. Es zeigte sich, daB eine hohe Wiederholungs- 
ubereinstimmung bestand hinsichtlich der Angaben daruber, ob eine be- 
stimmte Form sexueller Aktivitat vom Befragten jemals ausgeubt worden 
war. Die Wiederholungskoeffizienten lagen fur alle diesbezuglichen Fragen 
uber .90 und in alien bis auf 3 Falle uber .95. Flohe Wiederholungsuberein- 
stimmung besteht ebenfalls fur die mehr auBeren biographischen Daten, bei 
denen die Korrelationskoeffizienten in jedem Fall uber .80 lagen, in 6 von 8 
Fallen uber .90. Deutlich niedriger waren hingegen die Angaben uber das 
Alter bei der ersten Erfahrung mit einzelnen Formen sexueller Betatigung (r 
= .5 - .8). Dennoch sind die Differenzen nicht groB. Sie betragen im 
allgemeinen 5% Oder weniger des arithmetischen Mittels. Am niedrigsten 
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sind die Koeffizienten bei denjenigen Erlebnissen, die keinen abgrenzbaren 
Ereignischarakter haben: kindliche sexuelle Spieltatigkeit, unwillkurliche 
nachtliche Ejakulationen, heterosexuelles Petting. Die Angaben uber die 
durchschnittliche Haufigkeit, mit der die einzelnen Betatigungsformen 
wahrend eines bestimmten Zeitraumes ausgeubt worden sind, korrelierten 
miteinander zwischen .58 und .67. 

b) Eine weitere Uberprufungsmoglichkeit ergibt sich aus dem Vergleich der 
Angaben von Ehepartnern. Kinsey hat solche Vergleiche fur 231 Ehepaare 
vorgenommen (Tab. 14, S. 126). Verglichen wurden deren Angaben zu 
insgesamt 32 Einzelpunkten. Bei 3/4 der erfragten Einzelpunkte liegen die 
Ubereinstimmungskoeffizienten uber .70, bei der Halfte uber .80 und bei 1/4 
uber .90. In der Halfte der Einzelpunkte besteht zwischen den Angaben der 
beiden Ehepartner eine nahezu vollstandige Ubereinstimmung in 90 bis 
100% der Berichte. Diese Ubereinstimmung ist erstaunlich, wenn man in 
Betracht zieht, daft zwischen der Befragung der beiden Ehepartner Zeitrau- 
me von 2 bis 6Jahren (und mehr) lagen. 

c) Die Explorationen fur den Kinsey-Bericht sind uberwiegend von 3 Wissen- 
schaftlern ausgefuhrt worden. Das gab die Moglichkeit, die Frage zu unter- 
suchen, ob verschiedene Exploratoren gleiche Resultate zu erreichen pfle- 
gen. Es wurden zu diesem Zweck verglichen die Ergebnisse, die sie bei 
gleichartigen (parallelen) Gruppen von Befragten gewonnen hatten. Die 
Gruppen waren homogen unter den Gesichtspunkten des Geschlechts, der 
Rasse, des Familienstandes, des Alters, des Bildungsgrades, der Stadt-/ 
Land-Zugehorigkeit, der Konfession. Es wurden Vergleiche durchgefuhrt 
fur die Gruppen, in denen jeder Untersucher mehr als 300 Falle exploriert 
hatte. In Tab. 16 (S. 134) sind 75 Vergleichswerte wiedergegeben. 35 davon 

„areso similar that the differences are immaterial - closer than any person could 
calculate about his own history" (135), 

wobei wiederum die Zahlen uber die Haufigkeit, mit der die einzelnen 
Formen sexueller Betatigung praktiziert worden sind, eine etwas geringere 
Ubereinstimmung aufwiesen als die Zahlen uber die Verbreitung. Das Er- 
gebnis dieser Vergleiche ist: 

„There seems no reason to doubt that any other group of investigators could dupli- 
cate these results if their scientific objectivity and their methods in interviewing 
were comparable to those used in the present study" (135). 

d) Kinsey, der personlich im Laufe eines knappen Jahrzehnts 7036 Exploratio- 
nen durchgefuhrt hatte, hatte noch eine weitere Moglichkeit zur Uberpru- 
fung der Reliability seiner Methode im Laufe der Zeit: Er verglich seine 
Explorationsergebnisse aus den ersten 4 Jahren (1938-1942) mit denen aus 
den letzten 4 Jahren (1943-1946) der Erhebungszeit, bildete unter den 
Gesichtspunkten des Geschlechts, der Rasse, des Familienstandes, des A I- 
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ters und des Bildungsgrades homogene Gruppen und verglich die Mittel- 
werte aller Gruppen, die mehr als 300 Personen umfaRten, aus der ersten 
Halfte der Erhebungszeit mit gleichartigen Gruppen aus der zweiten Half- 
te. Die Ergebnisse sind zusammengestellt in den Tabellen 21 (S. 142), 22 
(S. 144) und 23 (S. 146). Die Mittelwerte aus beiden Erhebungszeitraumen 
sind bei alien Gruppen nahezu identisch. 

,,The comparisons in Tables 21-23 seem to indicate that methods of securing 
subjects, proficiency in interviewing, skill in using the code in which the data are 
recorded, and calculations and judgments which the data undergo in their statistical 
treatment, can be maintained at such uniform levels as many persons would have 
considered impossible in a case history study which is liable to error from so many 
sources, and which deals with as taboo a subject as sex" (147). 



6.2 Validitat 

Die Validitatsuberprufung kann sich auf drei Stadien der Anwendung eines 
Erhebungsverfahrens beziehen: die Datenerhebung, die Auswertung der 
erhobenen Befunde (Kategorisierung, Quantifizierung, Evaluation, Scoring) 
und ihre Verarbeitung fur eine Diagnose bzw. Prognose. 



6.2.1 Die Validitat der Datenerhebung 

Validitat der erhobenen Daten ist das MaR, in dem die von den Befragten 
gemachten Angaben mit einem (objektiven und seinerseits reliablen) Kriterium 
fur den explorativ erhobenen Sachverhalt ubereinstimmen. 

Die Leistungsfahigkeit der explorativen Verfahren bei der Datenerhebung ist 
selbstverstandlich unterschiedlich fur verschiedene Arten von Daten. 

Die Leistungsfahigkeit der Exploration fur die Erhebung von Daten der kor- 
perlichen Reifung in der Pubeszenz wurde von Kinsey (1948) untersucht 
durch einen Vergleich der explorativ erhobenen Daten mit somatoskopischen 
Beobachtungen. Es sei hier als Beispiel herausgegriffen das von den befragten 
erwachsenen Mannern angegebene Alter des ersten Auftretens der Pubes- 
behaarung. Die sich daraus ergebende Altersverteilung wurde verglichen mit 
den somatoskopisch ermittelten Altersverteilungen des gleichen Merkmals, die 
in jenen Zeitraumen erhoben worden sind, in denen die von Kinsey befragten 
Manner die Pubeszenzentwicklung durchliefen. Eine frappierende Uberein- 
stimmung ergab sich sowohl hinsichtlich der Mittelwerte (Tab. 15, S. 130) als 
auch bezuglich der Verteilungen (Abb. 15, S. 131). 
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Tabelle l: Vergleich der Mittelwerte des ersten Auftretens von Pubesbehaa- 
rung nach den Befragungsergebnissen von Kinsey (1948) mit den 
Ergebnissen somatoskopischer Beobachtungen von Crampton 
(1908), Dimock (1937) und Schonfeld (1943) 





Crampton 


Dimock 


Schonfeld 


Kinsey 


N 


3835 


1406 


1475 


2511 


M 


13,44 


13,08 




13,45 


Z 






13,17 


13,43 


s 


1.51 






0,03 



Auszug aus Kinsey u.a. (1948, Tab. 15, S. 130). 




Age 

Wiedergabe von Kinseys (1948) Abb. 15 (S. 131). 

Abb. 1: Vergleich der Altersverteilung des ersten Auftretens von Pubesbehaarung nach 
den Befragungsergebnissen von Kinsey (1948) mit den Ergebnissen somato- 
skopischer Beobachtungen von Crampton (1908), Dimock (1937) und Schon- 
feld (1943) 

Diese gute Ubereinstimmung ist deshalb so erstaunlich, weil das Alter des 
ersten Auftretens der Pubesbehaarung sicher zu den nicht gerade leicht erin- 
nerbaren Ereignissen der personlichen Entwicklung gehort. 
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Bezuglich des Alkoholkonsums fuhrte Schmidt (1973) einen Vergleich von 
Befragungsergebnissen mit Verkaufsdaten (Kanada) durch, wobei er eine sehr 
gute Ubereinstimmung bei niedrigen und bei mittleren Konsumquanten fest- 
stellte. Hingegen betragt die am starksten konsumierende Gruppe (= Perso- 
nen, die 11 und mehr Flaschen alkoholischer Getranke kaufen) auf Grund der 
Befragungsergebnisse nur 1,8%, nach den Verkaufsdaten aber 6,54%. Beson- 
ders jene Alkoholkonsumenten, die taglich alkoholische Getranke einkaufen, 
machen besonders niedrige Angaben zum Konsum. Auch Boland und Roizen 
(1973) fanden sehr gute Ubereinstimmungen zwischen Befragungsergebnissen 
und Verkaufsdaten bei niedrigen Konsummengen. Die Ubereinstimmung 
wurde um so geringer, je hoher die Verkaufsdaten waren. Aus diesen Ergeb- 
nissen ist zunachst einmal zu schlieBen, daB starke Tri nker dazu tendieren, zu 
niedrige Konsummengen anzugeben - sei es, daB sie tatsachlich keine Kon- 
trolle uber die von ihnen genossenen hohen Alkoholmengen haben, sei es, daB 
sie ihren hohen Alkoholkonsum zu verschleiern trachten. Ahnliche Verhalt- 
nisse sind sicher uberall zu erwarten, wo es um das Bekenntnis sozial miBbil- 
ligten Verhaltens geht. Hier zeigt sich einer der Grunde dafur, daB es gewiB 
auch fur die explorativen Methoden eine differentielle Validitat gibt: ihre Vali- 
ditat ist, selbst bei gleicher Thematik der Befragung, nicht fur alle Menschen 
gleich hoch. Sie ist niedriger fur sozial miBbilligte Verhaltensweisen. Dieser 
Tendenz gilt es, schon wahrend der Befragung durch die bewahrten Techniken 
der „Exploration verheimlichter Sachverhalte" entgegenzuarbeiten. Der durch 
die Wirksamkeit dieser Tendenz auftretende Fehler durfte aber fur die Praxis 
nicht gravierend sein, denn es kommt dadurch eher ein systematischer Fehler 
zustande (eine speculation a la baisse bei M engenangaben fur sozial miBbillig- 
tes Verhalten, die um so starker ist, je hoher die tatsachlichen Haufigkeiten 
bzw. Mengen sind), so daB die Rangfolge in den Konsumangaben und damit 
die hohe Reliability erhalten bleiben, wie Boland und Roizen (1973) fur den 
AlkoholgenuB hervorheben. 



6.2.2 Validitat der Bewertung 

Explorationsbefunde mussen fur eine ganze Reihe von Fragestellungen in ir- 
gendeiner Form bewertet werden: sie mussen quantifiziert Oder einer Auswer- 
tungskategorie zugeordnet Oder irgendwie interpretiert werden. 

Eine Untersuchung hierzu ist im Arbeitskreis von Thomae von Fisseni (1974) 
durchgefuhrt worden. 237 Frauen in Altersheimen wurden uber das Leben im 
Fleim befragt, und zwar einerseits in einer unstrukturierten Exploration, die 
einem lockeren Themenkatalog folgte, der den Tageslauf der Befragten um- 
schrieb, und andererseits mit einem standardisierten Fragebogen, der mit 50 
gezielten Fragen den gleichen Themenkreis erfaBte. Die Auswerter ordneten, 
unabhangig voneinander, das Explorationsmaterial dem gleichen Ja/Nein-Fra- 
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gebogen zu, der von den Probanden ausgefullt worden war. Die Inter-Rater- 
Reliabilitat betrug .73; die Ubereinstimmung mit den originalen Fragebogen- 
beantwortungen betrug 87. 



6.2.3 Validitat der diagnostischen Verwertung 

Die erhobenen und bewerteten Befunde bilden die Basis fur die Diagnose. Die 
diagnostische Validitat ist ein MaG fur die Richtigkeit der Diagnose Oder der 
Vorhersage. Die bewerteten Befunde sind die Pradiktoren. Voraussetzung fur 
die Richtigkeit der Diagnosenstellung sind einerseits die Erarbeitung einer 
empirisch begrundeten klaren Symptomatologie der zu diagnostizierenden 
psychologischen Sachverhalte. Eine solche ergibt sich aus empirischen Unter- 
suchungen der Haufigkeit des Vorkommens der als Symptome aufzufassenden 
Befunde bei Vorliegen des zu diagnostizierenden Sachverhaltes. In mustergul- 
tiger Weise hat Kunkel (1977) dieses Vorgehen fur die Prognose der Ruckfall- 
wahrscheinlichkeit in das Delikt des Fuhrens eines Kraftfahrzeuges in alkohol- 
bedingt fahruntuchtigem Zustand vorgefuhrt. Man kann diesen Teil der Vali- 
ditat als „symptomatische Bedeutsamkeit" (Wohlfahrt, 1939) Oder als ..diagno- 
stische Validitat" bezeichnen. Sodann ist (weitere) Voraussetzung der richtigen 
Diagnosenstellung, daG der Diagnostiker die ..symptomatische Bedeutsam- 
keit" der erhobenen Befunde kennt, d.h. sie richtig gewichtet und sie im 
..semantischen Umfeld" (K. Buhler, 1933) richtig interpretiert. 

In einem unveroffentlichten Versuch von U. Lehr (Thomae 1968, 117f.) waren 
46 Studenten der Psychologie Ausschnitte aus der Exploration eines 38jahrigen 
Kaufmanns, dem wegen Betrugs und Unterschlagung die FE entzogen worden 
war, vom Tonband dargeboten worden, und zwar a) uber Kindheit und Ju- 
gend des Probanden und b) zu den Straftaten und seinen Auseinandersetzun- 
gen mit dem StraGenverkehrsamt. Die Beurteiler hatten die Aufgabe, den Ein- 
druck wiederzugeben, den sie daraus von der Personlichkeit des Probanden 
erhielten. Die von mindestens der H al fte der Beurteiler ubereinstimmend ge- 
gebenen Charakterisierungen wurden verglichen mit den Aussagen uber diese 
Personlichkeit, wie sie auf Grund der psychologischen Untersuchung, bei der 
u.a. angewendet worden waren: Kieler Determinationsgerat, Hawie, Ror- 
schach, TAT, graphologische Analyse, gewonnen wurden. Der Vergleich der 
Aussagen, die dieBeurteiler auf Grund der Exploration uber Kindheit und 
Jugend uberwiegend ubereinstimmend machten, mit den Befunden aus der 
personlichkeitsdiagnostischen Untersuchung ergab bei 24 Aussagen vollige 
Ubereinstimmung, bei 16 Aussagen war eine Bestatigung aus den anderen 
diagnostischen Verfahren nur teilweise zu erhalten, bei 2 Aussagen widerspra- 
chen sich der Eindruck aus der Exploration und die anderen diagnostischen 
Befunde. Im Vergleich der Aussagen, die die Beurteiler auf Grund der Explo- 
ration zur Sache (= seine bisherige Verkehrsbewahrung) machten, mit den 
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Befunden aus der Personlichkeitsuntersuchung ergaben sich bei 18 Aussagen 
Ubereinstimmungen, fur 19 Aussagen waren entsprechende Befunde aus den 
anderen diagnostischen Verfahren nicht beizubringen, bei 6 Aussagen bestand 
ein Widerspruch zu den Befunden aus den anderen diagnostischen Verfahren. 
Thomae 1968 interpretiert das Ergebnis dieses Versuches wie folgt: 

„Die in der Exploration gegebene Selbstdarstellung des Probanden ist nicht nur das 
Resultat von Rationahsierungen, von Vereinfachmagen und Verfalschungen. Insbeson- 
dere dort, wo konkrete Verhaltensweisen in konkreten Situationen geschildert werden, 
wird eine psychische Realitat erkennbar, die andere Verfahren niemals in dieser Ein- 
deutigkeit aufzuweisen vermogen . . . Soweit aus solchen Schilderungen Verhaltensten- 
denzen erschlossen werden, lassen sich diese wenigstens zum erheblichen Teil auch 
durch ,objektivere' Verfahren nachweisen. Bei anderen durfte die Exploration auf Ten- 
denzen verweisen, die den ubrigen Verfahren gar nicht zuganglich werden. 

Daruber hinaus zeigt das Ergebnis, daG das MaG der Ubereinstimmung zwischen der 
Verwertung der Explorationsdaten durch Beurteiler und den Testbefunden von dem 
jeweiligen Inhalt der Mitteilung abhangt" (118). 

Die von Thomae entwickelten Prinzipien einer Analyse der formalen Qualita- 
ten des Tageslaufes wurden in einer (unveroffentlichten) Untersuchung von 
Olbrich (1967) auf ihren Aussagewert hin uberpruft (Thomae 1968). Das Ma- 
terial bildeten 40 in der Exploration gegebene Schilderungen von Tageslaufen 
an einem „typischen Werktag" von 60- bis 75jahrigen Mannern und Frauen 
(erhoben im Rahmen der VW-Alters-Studie). Zwei Beurteiler stuften, unab- 
hangig voneinander, die Schilderung des Verhaltens der befragten Personen in 
8 formalen Kategorien des Verhaltens (Thomae 1968, Tab. 5, S. 130) auf einer 
9stufigen Skala ein, ohne sonst irgendeine Kenntnis von den untersuchten 
Personen zu haben. Zwischen den Werten der 8 hier verwendeten Ausgangs- 
skalen und den ubrigen in dieser Untersuchung erhobenen Daten (Gesamtzahl 
563) uber die Erzahler dieser Tageslaufe ergaben sich bei Anwendung der 
Rangreihenkorrelation mehr als 300 signifikante bis sehr signifikante Korrela- 
tionen. Die Ergebnisse von Olbrich belegen, daG eine methodisch fundierte 
Erhebung und Auswertung von Daten uber Verhaltensweisen in mittleren 
biograph ischen Einheiten (Tageslauf) symptomatische Bedeutsamkeit besitzt 
sowohl fur Varianten des Verhaltens in kurz-zeitigen Einheiten (z.B. Leistung 
beim Determinationsgerat nach Mierke) wie bei groGeren Einheiten der Bio- 
graphie (z.B. Formen der Auseinandersetzung mit einer beruflichen Oder fa- 
mi I iaren Situation). 

Die Bedeutung der Exploration fur die Eignungsdiagnostik ist sehr schwer 
konkret nachweisbar, weil in der Praxis in der Regel das Eignungsurteil nicht 
allein auf Grund von Explorationsbefunden abgegeben wird, sondern auch die 
auGere Erscheinung des Bewerbers, die Verhaltensbeobachtung, Informatio- 
nen aus Zeugnissen und Akten, meistens auch Testergebnisse in das abschlie- 
Gende Eignungsurteil eingehen. Bei Bewahrungskontrollen der in der Ober- 
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gutachterstelle zur Beurteilung der Kraftfahreignung des Landes Nordrhein- 
Westfalen (Leiter: Undeutsch) verwendeten Untersuchungsverfahren war es 
moglich, einige ausschlieRlich aus der Exploration gewonnene Daten auf ihren 
prognostischen Wert hin zu untersuchen. Welzel (1976 und 1982) verfolgte an 
einer Untersuchungsgruppe von 420 (meist mehrfach) wegen Trunkenheit am 
Steuer vorbestraften Probanden, die in der Obergutachterstelle untersucht 
worden waren, deren Verkehrsbewahrung in den auf die Untersuchung fol- 
genden Jahren. Von den ausschlieRlich explorativ erhobenen Daten stehen das 
„Alter zum Zeitpunkt der ersten Heirat" und der „groBte Alkoholkonsum bei 
einem TrinkanlaB im letzten Jahr vor der Untersuchung" in gesicherter Bezie- 
hung zu einem erneuten Ruckfall in ein Trunkenheitsdelikt beim Fuhren von 
Kraftfahrzeugen innerhalb von 3 Jahren nach Wiedererteilung der Fahrerlaub- 
nis (Phi = .36). Lediglich einige aus der Gesamtheit der Untersuchungsergeb- 
nisse abgeleitete Personlichkeitseigenschaften und durch Aktenanalyse erho- 
benen Pradiktoren erreichen hohere Oder ahnlich hohe Validitatskoeffizienten. 

Nicht mehr exakt faRbar, aber doch immerhin deutlich erkennbar ist die Rolle 
der Exploration in der Eignungsdiagnostik hervorgetreten in einer Bewah- 
rungsuntersuchung von Trankell (1956). Das Material der Bewahrungskon- 
trolle waren Bewerber um Einstellung als Flugzeugfuhrer bei der schwedi- 
schen Luftwaffe. Die Eignung wurde von den Psychologen auf einer 9stufigen 
Skala angegeben, wobei sowohl die Testergebnisse als auch der in der Explora- 
tion gewonnene Eindruck berucksichtigt wurden. Als Kriterium diente die 



Tabelle 2: Korrelationen der Untersuchungsvariablen mit der Endbeurteilung 
nach AbschluG der fliegerischen Grundausbildung 



Variable 


1945 


1946 


1947 


1948 


Techn. Verstandnis 




.42 


.28 


.28 


Flugtechn. Orientierung 






.25 


.05 


Allgemeine Flugorientierung 




.24 


.34 


.05 


Sterzinger, Qualitat, 


.09 


.18 


.27 


.09 


Sterzinger, Quantitat 


.00 


.22 


.31 


.17 


Formal e Intel ligenz 


.25 


.31 


.47 


.27 


Introversion 


.16 


.01 


.06 


.21 


Sensibilitat 




.04 


.16 


.13 


Korperliche Gewandtheit 






.30 


.10 


Eignungsurteil 


.39 


.08 


.57 


.56 


N 




96 


96 


100 



(Aus: Trankell 1956, Tab. 17, s. 84) 





Exploration 



351 



Bewertung, die die angenommenen Kandidaten am Ende der fliegerischen 
Grundausbildung erhielten. Die Ergebnisse sind in Tab. 2 wiedergegeben: 
Korrelationen der Untersuchungsvariablen mit der Endbeurteilung nach Ab- 
schluG der fliegerischen Grundausbildung. 

Es zeigt sich, dal$ die von den Psychologen vorgenommenen Einstufungen mit 
dem Kriterium - mit Ausnahme des Aufnahmejahrganges 1946 - hoher 
korrelieren als die Testwerte. Die aus der Exploration gewonnenen Zusatzin- 
formationen und der auf Grund der Exploration gebildete Gesamteindruck 
ermoglichen eine genauere Prognose als irgendeiner der Tests. Eine Ausnahme 
bildet der Aufnahmejahrgang 1946. Eine Erklarung dafur findet sich, wenn 
man die Validitatskoeffizienten fur die beteiligten Psychologen einzeln berech- 
net (Tab. 3). 



Tabelle 3 : Korrelationen der Eignungsurteile der einzelnen Psychologen mit 
der Endbeurteilung nach AbschluG der fliegerischen Grundausbil- 
dung 



Explorator N Eignungsurteil 



1946 | 


[ Psychol oge A 


69 


.21 




l Psychol oge B 


27 


.00 


1947 


f Psychologe C 


69 


.33 




L Psychologe D 


27 


.50 


1948 


[ Psychologe E 


39 


.36 




L Psychologe F 


61 


.49 



(Aus: Trankell 1956, Tab. 19, S. 87) 



Diese Zusammenstellung offenbart betrachtliche Unterschiede in der progno- 
stizierenden Befahigung der beteiligten Psychologen. Die Eignungsprognosen 
des Psychologen B haben keinerlei prognostischen Wert, wahrend die Psycho- 
logen F und D sehr hohe Validitatskoeffizienten erzielten. Die Leistungsunter- 
schiede zwischen den beteiligten Exploratoren traten noch deutlicher in Er- 
scheinung, wenn als Validitatskriterium das Alternativmerkmal „fliegerische 
Grundausbildung wegen mangelhaften Ausbildungserfolges abgebrochen ./ . 
erfolgreich abgeschlossen" verwendet wird. Die individuellen Validitatskoeffi- 
zienten der beteiligten Psychologen lagen hier zwischen .40 und der (nicht 
unbetrachtlichen) negativen Korrelation von -.21 (Tab. 18, S. 87). Die Ausle- 
se im Jahre 1946 wurde von den zwei Psychologen A und B vorgenommen, die 
dazu am wenigsten befahigt waren. 
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Ein ahnliches Ergebnis erbrachte die Bewahrungskontrolle der von der Ober- 
gutachterstelle des Landes Nordrhein-Westfalen zur Beurteilung der Kraft- 
fahreignung erstellten psychologischen Gutachten (Deters, 1978). 878 Proban- 
den, die in den Jahren 1966-1972 begutachtet worden waren, wurden uber 
einen Zeitraum von 3.5-7.0 Jahren bezuglich ihrer spateren Verkehrsbewah- 
rung weiter verfolgt. In den Untersuchungen der Obergutachterstelle nimmt 
die Exploration eine zentrale Stellung ein. Sie erstreckt sich sowohl auf die 
Personlichkeit des Probanden wie auch auf seine bisherige Verkehrsbewah- 
rung und bei Trunkenheitstatern selbstverstandlich auch auf die Entwicklung 
ihrer Trinkgewohnheiten und ihrer Einstellungen zum Problemkreis „Alkohol 
und Verkehr". Die durchschnittliche Dauer einer Exploration betragt hier 2;15 
Stunden. Bei der Prognose kunftiger Verkehrsbewahrung haben die aus der 
Exploration gewonnenen Befunde ein sehr starkes Gewicht. Es wurde nach 
verschiedenen statistischen Verfahren die prospektive Validitat der in die Be- 
gutachtung ei ngegangenen Variablen ermittelt. Es wurden auch multiple Kon- 
striktionskoeffizienten berechnet, um die optimale Kombination von Varia- 
blen fur die Prognosestellung kennenzulernen. U. a. wurde eineTrennung der 
Ergebnisse nach Kombinationen von Pradiktorvariablen mit und ohne Einbe- 
ziehung der Variablen „Gutachtenergebnis" vorgenommen. Es ergab sich, date 
die Sechser-Kombinationen, bei denen das Gutachtenergebnis einbezogen 
worden war, 

„fast durchweg numerisch hohere Vorhersageverbesserungen erzielen als die Sechser- 
Kombinationen, bei denen die Variable .Gutachtenergebnis' ausgespart worden war" 

( 114 ). 

Es ergab sich weiter, dal$ bei alien als optimal gefundenen Pradiktorkombina- 
tionen der jeweils beste Einzelpradiktor die Variable ..Gutachtenergebnis" ist 
(S. 16 und Tab. 6/ B 1). 

Dieses immer wieder zu beobachtende diagnostische Plus, das die Exploration 
liefert, hat zwei Grunde. Einerseits erfalSt die Exploration inhaltliche Aspekte 
der Personlichkeit, die andere Verfahren niemals in dieser Eindeutigkeit aufzu- 
weisen vermogen. Zum anderen ist sie ein ganzheitliches Verfahren, das es 
ermoglicht, die in der Exploration und die mit anderweitigen Untersuchungs- 
verfahren gewonnenen Befunde aufeinander zu beziehen und in einer im Hin- 
blick auf die konkrete Personlichkeit adaquaten Weise zu gewichten. Wellek 
(1958) hatte schon auf Grund theoretischer Uberlegungen darauf hingewiesen, 
daG die Exploration, je mehr sie „die Personlichkeit als Ganzes im Auge hat", 

„desto mehr leistet die Methode und desto eher wird sie zum .Ruckgrat' der Diagnose, 
die dann eben das Ganze, nicht ausgegliederte Sektoren betrifft" (24). 

Noch lebendiger und anschaulicher schildert den unersetzlichen Wert der Ex- 
ploration Walther (1941) aus den Erfahrungen der ganzheitlich-charakterolo- 
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gisch ausgerichteten Offiziersbewerber-Eignungsuntersuchungen in der deut- 
schen Wehrmachtspsychologie: 

„Die Eignung der Aussprache zur Losung der verschiedenartigsten diagnostischen Pro- 
bleme ist nicht von ungefahr. Es wurde eine Abhandlung fur sich erfordern, das im 
einzelnen darzulegen. In diesem Zusammenhang mag es genugen, daran zu erinnern, 
dal$ wir in der Aussprache die einzigartige Moglichkeit besitzen, jede Reaktion des 
Pruflings in ihrer Bedeutung fur das Ganze der Personlichkeit genau abzuschatzen. 
Seine AuBerungen sind nicht (wie etwa schriftliche) von ihm abgelost, sondern bleiben 
im Verband nicht nur der zugehorigen Ausdruckserscheinungen und Verhaltensweisen, 
sondern auch der situativen Faktoren. SchlieBlich lassen sich die tieferen inneren Zu- 
sammenhange, in denen die Reaktionen und AuBerungen des Pruflings stehen, grund- 
satzlich bis an die Grenze des Moglichen erkunden. Aus diesem Grunde ist die Ex- 
ploration die via regia der psychologischen Diagnostik und wird es immer 
bleiben. Das hei I5t mit anderen Worten auch: es wird gar nicht moglich sein, eine 
,bessere' Methode zu finden" (24). 

Auf der anderen Seite gibt es auch niederschmetternde Validitatskoeffizienten 
aus dem Bereich der Eignungsdiagnostik. Solche finden sich bei Eysenck 
(1951, 1952) zusammengestellt, aber auch in alien Sammel referaten uber die 
Leistungsfahigkeit explorativer Techniken in der Eignungsdiagnostik (Wagner 
1949, Mayfield 1964, Ulrich & Trumbo 1965, Moffatt 1969, Wright 1969, 
Triebe 1976). Wegen der vielfaltigen Verwendungsmoglichkeit explorativer 
Techniken ist es ganz selbstverstandlich, dal$ es auch eine Vielzahl, und zwar 
sehr unterschiedlicher Validitatskoeffizienten geben muR. Niedrige Koeffi- 
zienten besagen zunachst einmal, dal$ Explorationen - im Gegensatz zu voll 
standardisierten Tests - auch ganz unzulanglich durchgefuhrt und ausgewer- 
tet werden konnen. Wellek (1958) sagt zu den von Eysenck berichteten niedri- 
gen Validitatskoeffizienten: 

,,Wie schlecht mul$ da exploriert worden sein, wenn keinerlei Bewahrungserfolg erzielt 
werden konnte!" (26). 

Auch Thomae (1968) meint, Eysencks 

,,diesbezuglichen Befunde sprechen zunachst einmal fur einen nicht sonderlich hohen 
Standard der Verwendung von Explorationstechnik und der Techniken und Ziele der 
Auswertung der auf diese Weise gewonnenen Daten" (117). 

Zum anderen stellt sich das - fur alle Validitatsuntersuchungen leidige - 
Problem der Kriterienvariablen im Falle eines ganzheitlichen Verfahrens, wie 
es die Exploration in typischer Weise ist, mit besonderer Scharfe. Hierzu hatte 
Wellek schon 1958 ausgefuhrt: 

„Eine Exploration kann selbst im gunstigsten Falle das Ergebnis eines Tests nicht besser 
voraussagen als dieser selbst. Ist also der der Bewahrungskontrolle zugrunde gelegte 
MaBstab ein Test Oder doch testartig, dann ist es ein methodischer KurzschluB, zu 
sagen, in der Bewahrung komme ein Test besser heraus als eine Exploration, denn das 
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liegt in der Sache selbst. Ein ,ganzheitliches' Verfahren wiedie (echte) Exploration 
kann der Natur der Sache nach nur uberlegen, ja sogar nur brauchbar sein, wenn das 
Erkenntnisziel - der gefragteGegenstand - glei chfal Is ein ganzheitliches ist" (27). 

„AHgemeiner gesagt: eine nicht qualitativ ausgerichtete Bewahrungskontrolle ist zur 
Validierung eines ganzheitlichen diagnostischen Verfahrens nicht geeignet" (28). 

Wahrscheinlich in noch viel hoherem MaBe ist ein anderer Grund fur die 
unterschiedliche Hohe der gefundenen Validitatskoeffizienten maBgebend: 
Lopez (1965) weist darauf hin, daB die Eignungsdiagnose ein mehrstufiger 
Vorgang ist: 

„This decision-making function of the employment interviewer presupposes three 
separate and prior steps: description, evaluation, and prediction. The selection inter- 
viewer must first elicit sufficient information from the applicant (description) to com- 
pare with a set of preestablished job specifications (evaluation) to enable him to draw a 
conclusion about the probable future behavior of the interviewee in a specific set of 
circumstances (prediction). On the basis of this prediction he then makes a decision 
..." (10f.). 

Fur die diagnostische Valenz der Exploration ist von ausschlaggebender Be- 
deutung, date fur die Diagnose eine klare und vollstandige Symptomatik der zu 
diagnostizierenden Sachverhalte von der Forschung erarbeitet worden ist, der 
nicht nur zu entnehmen ist, welche Befunde uberhaupt symptomatische Be- 
deutsamkeit besitzen, sondern vor allem auch, welches Gewicht den einzelnen 
Symptomen beizumessen ist. Das Fehlen einer solchen klaren Symptomatik ist 
z.B. der Grund dafur, weshalb selbst bei standard i si erten Tests und Person- 
lichkeitsfragebogen in der Klinischen Psychologie von verschiedenen Auswer- 
tern unterschiedliche klinische Diagnosen gestellt werden. Fur die Eignungs- 
diagnostik haben Triebe, Fischer und Ulich (1973) mit Recht hervorgehoben: 
Eine Analyse der Arbeitsanforderungen 

„ist der Ausgangspunkt jeder den Anspruchen wissenschaftlicher Objektivitat genu- 
genden Eignungsdiagnostik. Ihr kommt die Schlusselfunktion zu; von ihrer Angemes- 
senheit und Genauigkeit hangt letzten Ende ab, ob sich die eignungsdiagnostischen 
Verfahren - mit den resultierenden Prognosen - bewahren" (27). 

Niedrige Validitatskoeffizienten konnen ihren Grund ganz einfach haben in 
unzutreffenden Vorstellungen von der Anforderungsstruktur der betreffenden 
Stelle Oder Position auf Seiten des Entscheidungstragers. Die Strukturierung 
der eignungsdiagnostischen Exploration muB von einer Analyse der Arbeits- 
anforderungen her vorgenommen werden, wahrend in der Praxis, wie die 
vorliegende Literatur zeigt, weit eher ein dem Explorator mehr Oder weniger 
bewuBtes „Stereotyp des guten Bewerbers" den Orientierungsrahmen fur die 
Gesprachsfuhrung und fur die Beurteilung abgibt. 

„lnsofern konnte man - etwas uberspitzt - sagen, daB mit Hilfe unstrukturierter 
Interviews ausgewahlte Bewerber zwar wahrscheinlich meist die Anforderungen ihres 
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Interviewers erfullen werden, dal$ es aber weitgehend vom Zufall abhangen wird, in 
welchem Mal$e dessen Anforderungen mit denen der fur den Bewerber vorgesehenen 
Tatigkeit ubereinstimmen" (Triebe 1976, 40). 

Aus den Sammel referaten von Ulrich und Trumbo (1965) und von Wright 
(1969) ergibt sich eine Uberlegenheit strukturierter Explorationen hinsichtlich 
ihrer Reliabilitat und Valid itat. Dies gilt aber wiederum nur, wenn sich die 
Voraussage auf etwas Spezialisiertes, Eingeengtes bezieht. Allgemein formu- 
liert Wellek (1958): 

„Je enger die Fragestellung, zumal in Richtung auf konkrete Leistungen und Erfolge, 
umschrieben ist, je weniger laftt sich von der blolSen Exploration, je mehr von entspre- 
chend zugeschnittenen Tests und sogar Fragebogen erwarten. Und umgekehrt: je allge- 
meiner aufs Personlichkeitsganze gehend die Fragestellung, je mehr laftt sich von der 
Exploration und von der unmittelbaren Oder auch mittelbaren ausdrucksmaBigen 
Kenntnisnahme, je weniger von Tests und erst recht von Fragebogen erwarten" (25). 

Auf Grund einer Ubersicht uber die vorliegende anglo-amerikanische Litera- 
tur zur Leistungsfahigkeit der Exploration im Kontext der Eignungsdiagnostik 
kommt Triebe (1976) zu dem Ergebnis: 

,,lm Fiinblick auf die M oglichkeiten des interviews scheint-wenn auch wohl z.T. 
aus recht verschiedenen Grunden - unter Praktikern und Wissenschaftlern fast einhel- 
liger Optimismus zu herrschen" (8). 

Diese M oglichkeiten gilt es zu nutzen. Fur die viel faltigen Anwendungsberei- 
che explorativer Techniken gilt es, 

die relevanten Themen der Exploration empirisch zu ermitteln, 
Fragetechniken zu entwickeln, 

Auswertungstechniken zu erarbeiten, 

die diagnostische Relevanz von Explorationsdaten zu ermitteln, 
Psychologen auf Grund dieser Erkenntnisse in Explorationstechnik und 
-auswertung auszubilden, 

damit der Kreis von Psychologen, der mit diesem methodischen Instrumenta- 
rium erfolgreich zu arbeiten versteht, vergrbBert wird, denn dieses Erhebungs- 
verfahren hat einzigartige und daher unverzichtbare Vorteile, auf die nament- 
lich Thomae immer wieder hingewiesen hat: 

,,Es ist somit nicht eine methodische Voreingenommenheit Oder Borniertheit, die uns 
die besondere Bedeutung der Exploration fur die systematische Beobachtung menschli- 
chen Verhaltens in verschiedenen biographischen Einheiten hervorheben laBt. Vielmehr 
ist es die Einsicht, dal$ nur das Individuum selbst Zeuge seines Verhaltens im naturli- 
chen Ablauf seines Lebens ist. Da wir keine Zeiten herbeisehnen durften, in denen eine 
Dauerbeobachtung durch Fremde staatlich Oder wissenschaftlich sanktioniert wird, 
konnen wir auf die Aussagen dieses Zeugen nicht verzichten" (1968, 111). 
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8. Kapitel 



Biographische Methode und Einzelfallanalyse 
Hans Thomae und Franz Petermann 
1. Einfuhrung 

In einer Einflihrung zu einer „Soziologie des Lebenslaufs“ hat Kohli (1978) als 
Grund der ,,hohen Erwartungen“, die man in den Sozialwissenschaften mit 
Begriffen wie ,,Lebenslauf“ und „Biographie“ verbindet, u.a. die Hoffnung 
genannt, damit den ,,wirklichen Lebensverhaltnissen“ naher zu kommen ,,als 
mit den Abstraktionen und Objektivationen der gelaufigen Theorien und Me- 
thoden“ (Kohli, 1978. S. 9). Diese Erwartungen wurden schon in den friihe- 
sten Erwahnungen dieses Ansatzes zum Ausdruck gebracht. Herder (1778) 
verwies auf die Bedeutung der Erfassung von Lebenslaufen in einer Auseinan- 
dersetzung mit der als rationalistisch empfundenen Psychologie der Aufkla- 
rung. Die empirische Basis einer Psychologie, welche die Ursache menschli- 
chen Verhaltens eher ,,unter deni Zwerchfell“ als ,,im Kopf“ sucht, wird in 
„Lebensbeschreibungen, Bemerkungen der Arzte und Freunde, Weissagun- 
gen“ gesehen. Mehr als ein Jahrhundert spater entwarf der Philosoph Wilhelm 
Dilthey als Gegenbewegung gegen die von W. Wundt, C. Stumpf und H. 
Ebbinghaus konzipierte ,,naturwissenschaftliche“ Psychologie in einer bedeut- 
samen Rede vor der Preussischen Akademie der Wissenschaften eine „Verstehen- 
de Psychologies die ihre Norm in der ,,Darstellung des Singularen" finde, so wie 
sie in der Biographie gepflegt werde. Das „entfaltete seelische Leben“ in seiner 
Totalitat ist ihm die Einheit, von der Aussagen iiber die menschliche Natur 
auszugehen haben, nicht fiktive Elemente wie Lust, Unlust, Empfindung, 
Geflihl. An dieser gelebten Einheit hebt die beschreibende Kunst des Psycho- 
logen bestimmte Seiten hervor, wobei die Betrachtung von Lebensablaufen in 
ihrer jeweils gewordenen Gestalt die sicherste empirische Grundlage abgibt. 

Freilich liegt die eigentliche Bedeutung von Dilthey nicht in der (von ihm nur 
angeregten) Ausarbeitung einer biographischen Methodik als eines wissen- 
schaftlichen Instruments, sondern in seinem unermudlichen Hinweis auf die 
,,machtige inhaltliche Wirklichkeit des Seelenlebens“, welche iiber die der 
,,konstruktiven“ Psychologie zuganglichen Bereiche hinausgehe (Dilthey, 
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1924, S. 144). Wichtig wird dabei auch die Berilcksichtigung des „vollen“ statt 
des durch methodische Zuriistungen ,,reduzierten“ Menschen. Deshalb wer- 
den von Dilthey besonders geisteswissenschaftliche Epochen analysiert, wel- 
che diese Einheit von theoretischer und praktischer Bewaltigung der Wirklich- 
keit besaBen, wie etwa das Zeitalter der Renaissance, das der ,,franzosischen 
Moralisten“ des 17. und 18. Jahrhunderts. GemaB der These, daB man den 
seelischen Strukturzusammenhang nur von seinem „voll entwickelten Zustand 
aus“ erfassen konne, ist die Orientierung an den differenziertesten Erlebnis- 
strukturen notwendig, wenn man der Eigenart der menschlichen Natur ge- 
recht werden mochte. Statt einer Eliminierung aller Komplikationen zugun- 
sten der Herstellung gewisser laboratoriumsgebundener Standardsituationen 
fordert die Erfassung des ,,vollen Menschen" eine Erweiterung der Beobach- 
tungsbasis gerade in den Bereich des Genialen, des Voraussetzungsvollen, des 
Hochststrukturierten hinein. Nur hier werden dieser Ansicht gemaB die 
Grundlinien menschlicher Existenz in pragnanter Weise erfaBt. 

Trotz dieser zahlreichen Hinweise auf die Notwendigkeit einer Einbeziehung 
moglichst umfassender und hochst strukturierter biographischer Einheiten in 
die wissenschaftliche Diskussion ist es in der auf Dilthey zuruckgehenden 
„geisteswissenschaftlichen Psychologie" nicht zur Ausbildung einer biogra- 
phischen Methode gekommen. Wohl hat Misch (1907/62) die Hinweise seines 
Lehrers in seiner groBen Geschichte der Auto-Biographie nutzbar zu machen 
versucht. Spranger (1966) zog in seiner ,,Psychologie des Jugendalters" zahl- 
reiche autobiographische Dokumente, Tagebiicher und Gedichte von Jugend- 
lichen zur Veranschaulichung des Ausgesagten mit heran. Auch seine Ansatze 
zu einer Psychologie des Alters nehmen auf autobiographische AuBerungen 
von Goethe Bezug (Spranger, 1963). Nirgends geschieht die Auswertung sol- 
dier Dokumente aber systematised Sie ist auch nicht als Beweisfiihrung ge- 
dacht. 

In gewisser Hinsicht kann man vielleicht sagen, der EinfluB von Dilthey be- 
ziiglich der Entwicklung einer biographischen Methode sei mehr indirekter 
Natur gewesen. So findet sich bei dem Psychiater H. W. Gruhle mancher 
Ansatz zur Ausbildung einer derartigen Methodik - und es war sicher kein 
Zufall, daB dieser sein psychologisches Werk als eine ,,Verstehende Psycholo- 
gie" bezeichnete. Ausdrlicklich aber knttpft L. Binswanger (1942, S. 661) an 
den Begriff der ..enthusiastischen Vertiefung" als der Grundlage eines echten 
Zugangs zum Verstandnis menschlicher Existenz an. Die spezifische Form der 
,,daseinsanalytischen Biographik" (Binswanger, 1928) ist ohne diese ,,enthusia- 
stische Vertiefung" nicht denkbar. 

Kuiper (1965) sucht die psychoanalytische Biographik auf die Kategorien des 
Verstehens zuruckzufuhren, wie sie bei Dilthey entwickelt wurden. Wenn 
Gesemann (1924) bei seinen Versuchen zu einer psychologischen Biographik 
auch nicht auf Dilthey Bezug nimmt, so konnte man zum mindesten seinen 
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Versuch iiber Gogol wohl als Beitrag zur Erflillung des von Dilthey skizzier- 
ten Programms werten. 

In der jlingeren Vergangenheit ist der Stellenwert der Biographik stark redu- 
ziert worden und erst die erheblichen Probleme von formalen Modellen, die 
zur Abbildung hochkomplexer psychologischer Fragestellungen herangezogen 
wurden, eroffnen dem biographischen Ansatz eine neue Chance. So entwik- 
kelte sich innerhalb der Klinischen Psychologie in den letzten 10 Jahren eine 
alternative Methodik, die stark am Wesen der Einzelperson und ihrer biogra- 
phischen Beziige interessiert ist (vgl. Barlow & Hersen, 1977; Dukes, 1977; 
Hersen & Barlow, 1976; Kazdin, 1978; Kratochwill, 1978; Leitenberg, 1977; 
Petermann, 1982; Ruppell, 1979 u.v.a.). Die Analyse der biographischen Be- 
ziige bei diesen prospektiv gesammelten Daten erfolgt mit Hilfe statistischer 
Verfahren (vgl. die sogenannte , .Einzelfallanalyse"). 

Die angedeutete Neuentwicklung im Rahmen der Analyse von Einzelfallen 
weicht hinsichtlich ihrer grundlegenden Intentionen von der biographischen 
Methode ab. Die biographische Methode klassischer Pragung basiert auf der 
querschnittlichen Gegeniiberstellung von Dokumenten von verschiedenen 
Personen, und alle Erkenntnisse resultieren meistens aus dem Vergleich von 
Personen untereinander. Die Einzelfallanalyse begreift sich als intensiver An- 
satz, der auf die intraindividuelle Gegeniiberstellung von Dokumenten bzw. 
Informationen von einer Person in verschiedenen Lebensphasen, Heilungs- 
phasen, Therapiephasen u.a. abzielt. 

Die nachfolgenden Ausflihrungen beschaftigen sich zunachst mit der biogra- 
phischen Methode und ihrer Anwendung in verschiedenen Bereichen der psy- 
chologischen Forschung (u.a. Personlichkeitspsychologie, Entwicklungspsy- 
chologie, Sozialisationsforschung, Psychoanalyse und StreBforschung). Daran 
schlieBt sich die Diskussion um die Objektivitat der biographischen Methode 
an; und anschlieBend wird auf statistische Ansatze im Rahmen der Analyse 
biographischer Dokumente eingegangen. In den letzten drei Abschnitten wird 
der extensive Ansatz (= biographische Methode) und der intensive (= Einzel- 
fallanalyse) gegenubergestellt, und die Einzelfallanalyse als empirischer Weg 
einer Analyse von langfristigen Verlaufen vorgestellt. 



2. Idiographische Personlichkeitspsychologie und 
biographische Methode 

Fur die Psychologie ist der von Herder und Dilthey aufgezeigte Weg durch G. 
W. Allport aufgegriffen worden. In der Neubearbeitung seines 1937 zum 
ersten Mai erschienenen Buches ..Personality" von 1962 wird den ..personli- 
chen Dokumenten und Fallstudien" eine wichtige Funktion im Instrumenta- 
rium des Personlichkeitspsychologen zugeschrieben. Als ..personliches Doku- 
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ment“ wird dabei ,,jede frei geschriebene oder gesprochene Information, die 
absichtlich oder unabsichtlich AufschluB iiber das Leben des Urhebers gibt“ 
angesehen. Einzelne Formen solcher ,,personlicher Dokumente“ sind Auto- 
biographien, Tagebiicher, Briefe, Antworten auf offene (nicht standardisierte) 
Fragen, wortliche Aufzeichnungen einschlieBlich Interviews und ,,gewisse lite- 
rarische Kompositionen“ (Allport, 1970, S. 393). Er nennt Motive, welche den 
Inhalt solcher Lebensberichte verfalschen konnen. Auch die Fallgeschichten 
von Psychiatern, klinischen Psychologen, Sozialarbeitern, Personalchefs und 
Mitgliedern anderer Berufe seien dabei zu nennen. Ein Beispiel fiir die Verwer- 
tung ,,personlicher Dokumente“ in Form von Briefen hat Allport (1965) in 
einer seiner letzten Publikationen geliefert: Er erhielt von einem befreundeten 
Ehepaar 301 Briefe, die eine als Jenny Jove Masterson bezeichnete Frau von 
ihrem 58. bis zu ihrem siebzigsten Lebensjahr an dieses Ehepaar schrieb. 
Dabei wird das Problem der Generalisierung von einer einzigen Fallgeschichte 
(der Entstehung einer immer starker isolierten und pessimistischen Lebensein- 
stellung) aufgeworfen und in der Weise gelost, daB alle moglichen Interpretat- 
ionsarten des ,,Falles“ (existenzpsychologisch, tiefenpsychologisch, eigen- 
schaftszentriert) durchprobiert werden. Gerade weil jeder der theoretischen 
Ansatze etwas an dem Fall erklart und doch anderes offen bleibt, prasentiert 
sich das personliche Dokument als eine Norm, an der sich jede Psychologie 
messen muB und an der gesehen, die Moglichkeiten und Grenzen psychologi- 
scher Bemuhungen einzuschatzen sind. 



3. Entwicklungspsychologie und humanistische Psychologie 

Unabhangig von den geisteswissenschaftlich-verstehenden ,,Urspriingen“ bio- 
graphischer Methoden ist deren Genese in der Entwicklungspsychologie. Kes- 
sen, Haith und Salapatek (1970) sehen die ,,Babybiographien“, die Eltern iiber 
die Entwicklung ihrer Kinder in Form von Tagebiichern verfaBten, als den 
Ausgangspunkt jeder Kinderpsychologie an und verweisen auf Rousseau als 
geistigen Urheber des Vorgehens. Sonst wird der deutsche Padagoge Tiede- 
mann (1787) als erster Autor einer solchen Babybiographie genannt. Die ei- 
gentliche Blutezeit dieser Babybiographie begann allerdings erst in der 2. Half- 
te des 19. Jahrhunderts mit Beitragen von Preyer (1882), Taine (1877), Darwin 
(1877) und Champneys (1881) und setzte sich fort in den Babybiographien von 
Shinn (1900), Scupin & Scupin (1907), Rasmussen (1931, 1934), von Clara und 
William Stern (1909) und Charlotte Biihler (1922). Die wissenschaftliche Be- 
deutung dieser Kinderbiographien wurde von Kessen, Haith und Salapatek 
(1970) trotz all ihrer Nachteile u.a. mit dem Hinweis auf die Tatsache begriin- 
det, daB in ihnen die einzelnen Beschreibungen ,,durch die kontinuierliche und 
konsistente Existenz eines anderen Individuums miteinander verbunden seien“ 
(Kessen et al., S. 299). M. a. W.: In vielen dieser Kinderbiographien werden 
Veranderungen des Verhaltens eines oder einiger Kinder beschrieben. Sie hat- 
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ten also unmittelbar zu dent Zugang, was eine Gruppe von Entwicklungspsy- 
chologen als Gegenstand ihrer Disziplin definiert: namlich das Studium des 
Verhaltens, betrachtet im Kontext des Lebenslaufs einer Person. Wahrend in 
Kinder- und Jugendpsychologie die ,,Biographie“ an Bedeutung verlor, griff 
die beginnende Entwicklungspsychologie des ganzen Lebens die Bemtthungen 
um die Ausbildung einer biographischen Methode wieder auf. Hier ist vor 
alleni Charlotte Btthler zu nennen. deren Arbeit liber den ,,menschlichen Le- 
benslauf als psychologisches Problem" in sachlicher wie in methodischer Hin- 
sicht einen in seiner Tragweite noch nicht voll ausgeschopften Ansatz schuf. 
Sie lieB einerseits ,,mit der Methode der Anamnese" (Btthler, 1933) bei einfa- 
chen alten Leuten im Wiener Versorgungshaus ,,50 Lebensgeschichten" erhe- 
ben, andererseits werteten in ihrem Arbeitskreis neben Psychologen, ,,spezia- 
lisierte Fachleute, einzelne Historiker, Literatur- und Kunsthistoriker. Sozio- 
logen und Mediziner" (Btthler, 1933, S. 3) literarische Biographien aus, wobei 
bei der Auswahl vor allem der Gesichtspunkt der Reichhaltigkeit und Zuver- 
lassigkeit der zuganglichen Quellen bestimmend war. 

..Interpretationen von Biographien wurden tunlichst nicht verwendet, sondern 
zur Verwendung gelangten nach Moglichkeit nur die objektiven Daten des 
Lebenslaufs und dokumentarisch belegte AuBerungen der betreffenden Per- 
sonlichkeit selbst liber ihr eigenes Leben" (Btthler, 1933, S. 3). 

Das Ziel der Auswertung bezieht sich einmal auf die „allgemeinen Erscheinun- 
gen und die reine formale Struktur derselben" (Btthler, 1933, S. 6). 

,,Uns interessiert hier nicht, daB Humboldt, weil er ein Romantiker war, weil 
er aus der und der Familie stammte, weil er mit Goethe und Schiller in Kontakt 
kam, weil er okonomisch so gestellt war, daB er sich ein relativ freies Leben 
erlauben konnte, weil er die und die Neigungen, die und die Gelegenheiten 
vorfand, nun diesen einen ganz bestimmten Lebenslauf flihrte, wie er als dieser 
Charakter, oder er als Vertreter dieses Zeitalters, Kreises usw. es getan hat. 
Das heiBt, uns interessiert an dieser Stelle weder das Individuelle noch das 
Typologische als solches und auch nicht seine Genese. Sondern uns interessiert 
Humboldt nur insoweit, als er eine allgemein menschliche Erfahrung in beson- 
ders ausgepragter Weise erlebt und beschrieben hat, so daB wir vermoge seiner 
die formale Struktur dieses Phanomens ganz besonders pragnant vor uns ha- 
ben" (Btthler, 1933, S. 6). 

Eine Methode, welche sich an sich zunachst ganz auf Individuen, deren 
Schicksale, Verhaltens- und Erlebnisweisen konzentriert, wird hier also In- 
strument generalisierender Aussagen. Die Abstraktion vom Individuellen 
trotz intensivster Zuwendung zum Individuellen ist hier das kennzeichnende 
Merkmal. 

Diese Abstraktion wird zunachst ttber den Aufweis von gemeinsamen Erleb- 
nis- und Verhaltensstrukturen in extrem entgegengesetzten Lebenslaufen er- 
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moglicht. Die Biographie eines 74jahrigen Rentners und eines 72jahrigen Eme- 
ritus der Anatomie zeigen trotz des groBen sozialen Unterschieds bemerkens- 
werte Ahnlichkeiten, ,,sobald man nur die groben Hauptdimensionen und die 
Verteilung von Zuwachs und Verlust an Dimensionen betrachtet“ (Biihler, 
1933, S. 20). 

Expansion in der Phase von Jugend- und mittlerem Erwachsenenalter, Re- 
striktion im hoheren Alter erscheinen liber den Unterschied der Klassen und 
Epochen hinweg als Grundrichtung menschlichen Daseinsvollzugs, ,,als ob- 
jektive Lebenstendenzen“ (Biihler, 1933, S. 83). 

Die Ausweitung dieser Studien erfolgte im Arbeitskreis von C. Biihler in Los 
Angeles (Biihler & Massarik, 1969), wobei die an den Wiener Fallen erarbeite- 
te Grundstruktur auch auf das amerikanische Fallmaterial anwendbar war. 

Allerdings ist jetzt die Lebenslaufpsychologie wichtiges Glied einer humanisti- 
schen Psychologie, in welcher die Kategorie des ,,Sinns“ und der Suche nach 
..Integration' 1 zu MaBstaben der Beurteilung werden. Die rein deskriptive und 
abstrahierende Methode wird durch existentielle und therapeutisch orientierte 
Wertungen ersetzt. 

Diese Wertorientierung ist noch entschiedener ausgepragt bei Abram Maslow 
(1950), der sein Konzept der Selbstverwirklichung empirisch durch die Aus- 
wahl der Lebensgeschichten von 49 bekannten Personlichkeiten stiitzte, die 
das Kriterium der volligen ,,psychischen Gesundheit“ erfiillen muBten. um in 
die Liste aufgenommen zu werden. Die ziemlich unsystematisch erhobenen 
Biographien dienten hier zur Abstraktion der fiinfzehn Eigenschaften der 
.Selfactualizier’s' und damit zur Definition der menschlichen Norm, an der 
jeder einzelne zu messen ist. 

Die Entwicklung der humanistischen Psychologie zu einer therapeutischen 
bzw. weltanschaulichen Sekte ist nicht zuletzt durch diese problematische 
Verwendung der biographischen Methode bedingt gewesen. 

Was bei intensiverer Beschaftigung mit den autobiographischen Dokumenten 
einer Personlichkeit immerhin zu leisten ist, hat Schmidt (1977) durch seine 
psychologische Analyse der Biographie von Beethoven gezeigt. Durch Heran- 
ziehung der ,,Skizzen“ zu den Kompositionen und der Tagebiicher, Briefe und 
der kunstlerischen Hinterlassenschaft selbst wird das Problem des ,,Dissens 
zwischen Biographie und kunstlerischem Dasein" (S. 334) diskutiert. Dabei 
werden psychopathologische und psychoanalytische Deutungen ebenso als 
unzureichend erwiesen wie etwa rein geisteswissenschaftliche. ,,Den Destruk- 
tionszwangen auf der biographischen Seite steht auf der kunstlerischen eine 
anscheinend vollkommen intakte Reife und Souveranitat entgegen“ (S. 344). 
Statt irgend welcher ,,biologischer“ Reduktionen empfiehlt Schmidt (1977) 
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vielmehr, die zureichende Beschreibung dieser (Beethovens) Konflikte ,,als 
biographisch herbeigefiihrte Interferenzen mit dem sozial determinierten, 
kiinstlerisch gestellten Lebensplan, als gewaltige Stauungen und Stimulanzen, 
zur Bewaltigung undurchschaubarer Sozialkonflikte bestimmte Grenzsituatio- 
nen herzustellen“ (Schmidt, 1977, S. 344). Letztlich aber erscheine die Tragik 
des biographischen Lebens als ,,bedingte dialektische Gegenwelt zu ihrer Auf- 
hebung in der Kunst“ (a.a.O. S. 351). Die an der dialektischen Psychologie 
orientierte Interpretation von Schmidt bleibt den vorliegenden biographischen 
und kiinstlerischen Dokumenten sehr nahe und kann in mancher Hinsicht 
sogar als Beispiel jener ,,verstehenden“ Methode angesehen werden, die Dil- 
they (1894) an sich vorschwebte. 

Ein etwas festerer Grund filr den Psychologen ist bei der Analyse literarhisto- 
rischer Quellen etwa mit Hilfe psychologisch bewahrter Auswertungstechni- 
ken gegeben. So hat Beliak (1964) eine ,,Thematische Analyse" im Sinne von 
H. A. Murray von 10 Kurzgeschichten von Somerset Maugham vorgenommen 
und sie als Projektion einer sehr selektiven Weltsicht interpretiert, die Ergeb- 
nis der Ausbildung bestimmter Abwehrmechanismen gewesen seien. Sears 
(1974) analysierte sieben Romane von Mark Twain, die dieser zwischen 1868 
und 1908 (d.h. im Lebensalter von 33 bis 73 Jahren) schrieb. Da die Teile 
einiger dieser Romane in mehrjahrigen Abstanden geschrieben wurden, erga- 
ben sich insgesamt 15 zeitlich voneinander getrennte Episoden des Phantasie- 
ausdrucks des Autors. Mit Hilfe der TAT-Auswertungstechnik ordneten zwei 
unabhangige Beurteiler (mit 76-94%iger Ubereinstimmung) die Analysen- 
einheiten (Episoden) bestimmten Bediirfnisindikatoren zu. Es wurde eine sehr 
charakteristische Motiventwicklung erschlossen, die bestimmten Ereignissen 
im Leben von Mark Twain (wie Heirat, Geburt der Kinder usf.) zugeordnet 
werden konnten. 

Ebenfalls an H. A. Murray orientiert ist eine Analyse des dichterischen Werks 
von Albert Camus durch R. N. Wilson (1964). GemaB der Grundposition des 
Autors stellt Psychologie ,,das Studium von Lebenslaufen" dar und der Dich- 
ter, insbesondere der Romancier, sei einer der wichtigsten Lieferanten von 
Rohmaterial firr eine derartige Psychologie. Gerade dieser Versuch von Wilson 
(1964) diirfte aber in mancher Hinsicht auf die Kritik des literaturhistorischen 
Fachmannes stoBen, der im iibrigen auch bei den anderen hier erwahnten 
Versuchen die Frage aufwerfen wird. inwieweit das kunstlerische Werk unmit- 
telbar als Ausdruck der Personlichkeit und ihrer Entwicklung verstanden wer- 
den kann oder nicht durch literarische Gestaltungsmerkmale bestimmt ist. 



4. Probleme psychoanalytischer Biographie 

Die Psychoanalyse von Freud wird von manchen als der eigentliche Beginn 
biographisch orientierter Methodik in der Psychologie angesehen. Man darf in 
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der Entwicklung dieses Arbeitsansatzes vielleicht drei Ausgangspunkte nen- 
nen: den von Breuer behandelten Fall von Frl. O., die Entdeckungen der 
infantilen Sexualitat und die Phase der ,,Selbstanalyse“ in der Entwicklung von 
Freud. 

Der Erfolg der Psychokatharsis, wie er bei der Behandlung von Frl. O. durch 
Breuer voriibergehend erzielt worden war, verwies auf den Zusammenhang 
zwischen einer momentanen Storung und einem zeitlich zurlickliegenden un- 
verarbeiteten Erlebnis. Die Representation des Erlebnisses im gegenwartigen 
BewuBtsein schafft die Moglichkeit der ,,Reinigung“. Auf weiter zurlicklie- 
gende Epochen des individuellen Lebens wird die Aufmerksamkeit des Thera- 
peuten nach der ,,Entdeckung“ der infantilen Sexualitat gelenkt. Das traumati- 
sierende Ereignis muB danach sehr haufig, wenn nicht immer in einer der 
Phasen der infantilen psychosexuellen Entwicklung gesucht werden. 

Als entscheidender Abschnitt in der Ausbildung der psychoanalytischen bio- 
graphischen Technik aber sieht Jones die im Jahre 1897 von Freud an sich 
vorgenommene „Selbstanalyse“ an. Aus dem von Jones ausgewerteten Brief- 
wechsel von Freud mit FlieB geht hervor, Freud habe damals ,,bei sich selbst 
die Leidenschaft flir seine Mutter und die Eifersucht auf seinen Vater entdeckt 
und dabei die Uberzeugung gewonnen, daB dies ein allgemein menschlicher 
Zug sei, der einem das Verstandnis fur die gewaltige Wirkung des Odipusmy- 
thos erschlieBe“ (Jones, 1960, Bd. 1, S. 380f.). 

Die spezifische Form psychoanalytischer Biographik erklart sich aus dieser 
Ausgangslage. Die Analyse des Lebenslaufs geschieht (fast) ausschlieBlich in 
einer vielschichtig - mit Hilfe von ,,freiem Einfall“, Traumanalyse und pro- 
vozierter Erinnerung - vorgenommenen Anamnese. Diese hat das Ziel, Ver- 
bindungen zwischen der momentanen, durch eine ,, Storung" definierten Situa- 
tion und einem traumatisierenden Ereignis aufzudecken. Dabei ist davon aus- 
zugehen, daB diese Traumatisierung in erster Linie in der frtihen Kindheit des 
Individuums erfolgt. Die Jugendzeit, das jiingere Erwachsenenalter und die 
sich daran anschlieBenden Phasen erscheinen wenig oder kaum relevant. 

Nicht zuletzt aber hat die biographische Analyse in der Art von Freud die 
Aufgabe und das Ziel, bei dem jeweils vorzufindenden Fall einen ,,Modellfall“ 
von biographischem Verlauf vorzufinden. Es geht nicht allein und nicht so 
sehr darum, noch vollig unbekannte schadliche Ereignisse in der friihen Kind- 
heit mit der spateren Storung in Verbindung zu bringen. Es kommt vielmehr 
nur darauf an, in dem jeweils zu studierenden Fall die erneute Bestatigung der 
Lehre liber solche Traumatisierungs-Storungs-Sequenzen wieder aufzufinden 
und die jeweils gegebene konkrete Variation solcher Ereignisse zu demonstrie- 
ren (vgl. die nunmehr liber 70 Jahre anhaltende Diskussion zum Fall Schreber: 
Kitay (1963), Niederland (1963)). Handelt es sich um einen eigenen Fall des 
psychoanalytischen Autors, so wird dieser schon deswegen das generelle atio- 
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logische Konzept befolgen, weil der Fall qua ,,Fall“ ja in jener Interaktion 
entstand, in welcher der Analytiker dem Analysierten seine an jenem Konzept 
orientierten Deutungen anbietet und so lange arbeitet, bis sie beiden Seiten 
akzeptabel erscheinen (vgl. dazu Schraml, 1965). 

Von hier aus gesehen haben die zahllosen orthodoxen Fallanalysen. die bis 
heute vorliegen, und die auch weiterhin veroffentlicht werden, den Sinn der 
Bestatigung eines generellen biographischen ,,Modells“ und des Nachweises 
seiner relativ geringfugigen Modifikation durch die jeweils gegebenen Umstan- 
de des spateren Lebens (vgl. etwa De Boor, 1966). 

Deshalb bemtiht man sich auch, innerhalb der Freud-Orthodoxie die gegebene 
Interpretation durch Verweise auf Freud’s eigene Arbeiten zu stutzen. Dieser 
orthodoxe Kanon der Interpretation aber wurde durch die Ansatze von Adler, 
Jung, Anna Freud, Heinz Hartmann, Ernst Kris und viele andere in verschie- 
denster Weise modifiziert. Teilweise legte man andere ,,Muster“ des iiberall zu 
erwartenden Verlaufs zugrunde, teilweise lieB man dem Analytiker einfach 
mehr Freiheit in der Auswahl des von ihm vorzufindenden Musters (Nachwei- 
se u.a. bei Lampl De Groot (1963); Loch (1966); Loewenstein (I960)). In 
neueren Darstellungen der psychoanalytischen Methoden wird auBerdem ini- 
mer starker die Durchmusterung des ganzen Lebens gefordert (dazu Schraml. 
1965; Kuiper, 1966). Ein Ausdruck dieser Entwicklung ist insbesondere der 
Versuch von Erikson (1950), die typische Modellsituation von Konflikten, wie 
sie innerhalb der friiheren Psychoanalyse flir die Zeit der Kindheit umschrie- 
ben worden war, auch flir das mittlere Erwachsenenalter zu definieren. Das 
soziale und politische Engagement von Erikson (1968) war wohl auch der 
Grund flir eine stark analytische Orientierung der politischen Psychobiogra- 
phie (Wolfenstein, 1967; Mazlish, 1972; Glad, 1973). Die Zielsetzung ist dabei 
oft sehr weitreichend. So fordert Edinger (1964, S. 668) von der psychologi- 
schen Biographie, daB sie eine ganzheitliche Annaherung an die Dynamik der 
Personlichkeitsentwicklung darstelle und dabei frliher wie gegenwartig wirk- 
same Bedingungen vollstandig erfasse. NaturgemaB ist die Erflillung einer 
solchen Forderung bei der Biographie politischer Personlichkeiten eher mog- 
lich als beim ,,Durchschnittsmenschen“, da die Mitwelt einfach mehr an Infor- 
mationen erhalt und registriert. Aber die Erfassung der formenden Erfahrun- 
gen in der frlihen Kindheit. der Personlichkeitsentwicklung wahrend der Ado- 
leszenz und des Erwachsenenalters stellt doch Anforderungen an die Quellen, 
die oft schwer erflillbar sein werden. Psychobiographien in diesem Sinne wer- 
den als wertvoll flir die Formulierung von Hypothesen iiber die Interaktionen 
zwischen der sozialen Struktur und dem ..psychischen Mechanismus“ angese- 
hen (Glad, 1973, S. 308). Diese Hypothesen konnten dann u.U. durch syste- 
matische Formen der Uberpriifung erganzt werden. Genau so sei aber die 
Generalisierung von dem einzelnen Fall auf umfassendere politische Phanome- 
ne moglich. 
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5. Biographische Methode als Instrument der 
Sozialisationsforschung 

Als ein ,,Markstein“ fur die Entwicklung der biographischen Methode wird 
von Allport (1942) die Arbeit von Thomas und Znaniecki (1918-20) iiber die 
Anpassung der polnischen Emigranten in Westeuropa und Amerika angese- 
hen. Hier wurden (miindlich ubermittelte) Autobiographien, Briefe, Zeitungs- 
ausschnitte, Gerichtsakten und Akten der Wohlfahrtsbehorden als Basis ftir 
die Analyse der Akkulturation bzw. Sozialisation herangezogen. Die Autoren 
gingen dabei von der Uberzeugung aus, daB ,,personliche Lebensberichte, die 

so vollstandig wie nur moglich sein sollten, den vollendeten Typ des soziologi- 

schen Materials darstellen und daB, wenn die Sozialwissenschaften andere Ma- 
terialien irberhaupt anwenden, dies nur geschieht wegen der praktischen 
Schwierigkeit, im Moment eine genugende Anzahl von solchen Berichten be- 
handeln zu konnen, zweitens aber wegen des ungeheuren Arbeitsaufwandes, 
der notwendig ist filr eine adaquate Analyse des personlichen Materials, das 
notwendig ist, um das Leben einer soziologischen Gruppe zu charakterisie- 
ren“ (a.a.O. S. 1 8 3 2 f ) . Wenn die Arbeit von Thomas und Znaniecki 
(1918-20) kaum Nachahmer fand, dann nicht nur wegen des groBen Arbeits- 
aufwandes und der gegen die Reprasentativitat des Materials erhobenen Ein- 
wande, sondern weil andere Methoden in der Sozialforschung in den Vorder- 
grund traten. Filr die Erstellung von Biographien trat mehr und mehr das 

Interview als Erhebungsquelle in den Vordergrund, wobei neben den auf die 

Verhaltensweisen des Individuums bezogenen Aufgaben mehr und mehr auch 
der soziale Kontext und sein Wandel Beriicksichtigung fanden. Dies trifft 
insbesondere filr die von Davis & Dollard (1940) erhobenen Biographien von 
jugendlichen Farbigen aus ,,dem tiefen Siiden" der Vereinigten Staaten zu, in 
denen versucht wurde, die ,, Sozialisation' 1 des Individuums durch die Gruppe, 
soziale Schicht und die Kultur, in die es hineingeboren wurde, zu demonstrie- 
ren. Den Interpretationsvolumen lieferte eine Legierung von S. Freud und C. 
L. Hall. 

Kardiner (1945) und Lewis (1961) sahen in Autobiographien Instrumente des 
Kulturvergleichs. Nach Lewis (1961) konne man mit Hilfe der Autobiographie 
vor allem die Gefahr vermeiden, fremde Kulturen mit einer z.B. westlichen 
oder US-amerikanischen Brille zu sehen. 

Lewis fiihrte diese Uberzeugung zu der Entwicklung der Methode der ,,mul- 
tiplen Autobiographie'*, die er zuletzt in einer Studie iiber Jesus Sandez und 
seine vier Kinder zu verwirklichen suchte. Die wortgetreue Wiedergabe der 
Tonbander, die er von diesen Explorationen aufnahm und die einen Band von 
fast 500 Seiten Umfang fiillen, scheint ihm zunachst durch ein sozialethisches 
Motiv gerechtfertigt zu sein: Die Klasse der ,, Armen", denen diese Familie 
zugehort, werde weder in der wissenschaftlichen noch in der kiinstlerischen 
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Literatur ausreichend berlicksichtigt. Dennoch seien ihre Biographien von ei- 
nem Reichtum, den die offizielle Literatur oft vernachlassige (Lewis, 1961; 
vgl. auch Paul, 1979). Neue Aktualitat gewann die biographische Methode vor 
allem auch in der Bildungsforschung (Bartenwerfer & Giesen, 1973) und der 
Industriepsychologie und -Soziologie (Obst, 1961; Bahrdt, 1975; Osterland, 
1973; 1978; Garrison & Muchinsky, 1977; Kohli, 1977; 1978). Osterland 
(1978) glaubt seinen weder nach Erhebungsmethode noch nach Stichprobe 
naher charakterisierten ,,Biographien“ von Industriearbeitern entnehmen zu 
konnen, daB die insgesamt sehr ungiinstigen Lebensbilanzen und -perspekti- 
ven der alteren Industriearbeiter Resultat einer lebensgeschichtlichen Entwick- 
lung seien, welche die Jiingeren noch einholen werde. Weit differenzierter sind 
dagegen die Riickschlusse, die aus den im Arbeitskreis von Lehr und Thomae 
(1958; 1965) und Lehr (1969; 1978) gesammelten ca. 1.900 Biographien von 
Mannern und Frauen der Geburtsjahrgange 1885-1930, die vorwiegend aus 
der unteren Mittelschicht stammen, gezogen wurden. Gegeniiber der Zuord- 
nung von typischen Konfliktarten zu bestimmten Lebensphasen wurde im 
autobiographischen Material der kurz vor und kurz nach dem ersten Weltkrieg 
Geborenen der EinfluB der Zeitgeschichte, der politischen und sozialen Veran- 
derungen auf die Auslosung und Intensivierung bestimmter psychischer Kri- 
sen deutlich (Lehr & Thomae, 1965). Ein Vergleich der Biographien von Frau- 
en und Mannern der gleichen Kohorten zeigte hinsichtlich des beruflichen 
Schicksals den EinfluB bestimmter Normen, welche eine Identifikation auch 
berufstatiger Frauen mit ihrem Beruf erschweren. Andererseits konnte gerade 
durch die Analyse der in alien Kohorten nach dem gleichen Muster erhobenen 
Biographien deutlich gemacht werden, wie soziale und historisch bedingte 
Veranderungen, wie etwa die Angewiesenheit der Wirtschaft auf die Frauen 
wahrend der Kriege oder wahrend einer Vollbeschaftigung, die Funktion jener 
Normen deutlich schwacher werden lassen und insofern ein selbstverstandli- 
ches Hineinwachsen in die weibliche Berufsrolle bei den nach 1925 geborenen 
Jahrgangen ermoglichen (Lehr, 1969). 

Lehr (1978) hat die Biographien von 741 Frauen und 570 Mannern der Ge- 
burtsjahrgange 1895 bis 1939 hinsichtlich der erlebten Kontinuitat bzw. Dis- 
kontinuitat im Lebensablauf analysiert und damit entscheidende Argumente 
gegen universalistische Phasen- oder Stufenmodelle gewonnen. Eine sozialisa- 
tionstheoretische Interpretation des Lebenslaufs erscheint danach angemesse- 
ner als eine an der biologischen Entwicklung orientierte. Vor allem aber wurde 
aus der Analyse des autobiographischen Materials die Bedeutung des subjekti- 
ven Erlebens ,,ureigenster individueller Erfahrungen und Erlebnisse“ erkenn- 
bar, ,,die - unabhangig vom biologischen, sozialen oder auch kalendarischen 
Alter - eine aktive Auseinandersetzung mit der jeweiligen Lebenssituation 
herausfordern“ (Lehr, 1978, S. 333). Durch die systematische Anwendung der 
biographischen Methode werden somit unkritische, aber journalistisch gut 
vertretbare SchluBfolgerungen aus Einzelbeobachtungen, wie wir ihnen etwa 
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in dem Schlagwort der ,mid-life-crisis‘ begegnen, weitgehend als unzulassig 
erwiesen. 



6. Psychologische Strefiforschung und biographische Methode 

Als weitgehend unentbehrlich ist die biographische Methode fur die Analyse 
der Beziehungen zwischen psychischer, sozialer und somatischer Belastung 
und der Auswahl der Reaktionen auf diese Belastung. 

Seit mehr als 25 Jahren haben wir versucht, die Reaktionen von Menschen, die 
Belastungssituationen ausgesetzt waren, zu erfassen und sie zu Auslosebedin- 
gungen und Resultaten in bezug auf bessere Anpassung in Beziehung zu 
setzen. 

Hambitzer (1962) hat in den spaten Funfziger Jahren Korperbehinderte (Ani- 
putierte, Querschnittgelahmte usf.) intensiv nach dem Verlauf ihrer Auseinan- 
dersetzung mit ihrem Schicksal befragt. Dabei trat deutlich ein gewisser Ver- 
laufstypus hervor, bei dem zu Beginn z.T. eher evasive Reaktionstendenzen 
dominierten, die sehr leicht in aggressive ubergehen konnten, z.B. wenn man 
versuchte, sie mehr unter Menschen zu bringen oder wenn berufliche Riick- 
schlage zu verarbeiten waren. Spater traten dann mehr und mehr verschiedene 
Formen von Leistung und Anpassung hervor. Doch gab es viele Unterschiede. 
In fiinf Fallen dominierten evasive Techniken bis zu 10 Jahre hindurch, in zwei 
iiber 25 Jahre hinweg. Die von Hambitzer Befragten standen im 25. bis 45. 
Lebensjahr. Es wird somit deutlich, daB Tendenzen zum Ausweichen und 
Meiden bedrohlicher Situationen keineswegs ein Charakteristikum des Alters 
sind, sondern eher ein Problem der Hohe des Belastungsgrades. 

Das wurde in einer weiteren, an jungeren Patienten durchgefiihrten Studie 
gezeigt. Es handelte sich dabei um Hamophile, die sich einem Heimselbstbe- 
handlungstraining unterzogen hatten, somit also eine aktive Auseinanderset- 
zung mit ihrer Krankheit gewahlt hatten. Dennoch fand Kipnowski (1980) bei 
ihnen viele Hinweise auf evasive Reaktionen und zwar vor allem im krank- 
heitsbezogenen Erlebnisbereich und in ihren Beziehungen zur auBerberufli- 
chen Umwelt. Dennoch verweist ein Vergleich von Erwartungs- und Ist-Wer- 
ten auf eine iiberzufallige Reprasentanz von Formen der Auseinandersetzung, 
die auf Anpassung und Behauptung gerichtet sind. Obwohl der Altersbereich 
hier noch mehr auf Jugend bis zum mittleren Erwachsenenalter bezogen ist, 
ergibt sich, daB eher die jungeren zu evasiven Reaktionen, zu Wahrnehmungs- 
abwehr tendieren. Die gelungene Anpassung gerade der starker Belasteten 
zeigt sich darin, daB sie eher zu einer positiven Umdeutung der Lage fahig 



waren. 
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Die auf den Verlauf der Erkrankung und der Reaktionen auf sie gerichtete 
Exploration deutete Zusammenhange zwischen der Aufnahme der Heim- 
selbstbehandlung und der Auswahl der Reaktionsmuster an. Bei diesen Patien- 
ten konnte auf eine Abnahme von depressiven Reaktionen, aber auch auf die 
Tendenz, sich zufallig bietende Chancen aufzugreifen, geschlossen werden, 
wahrend Tendenzen zum Bagatellisieren von frtther sehr beunruhigenden 
Symptomen, aber auch die psychophysiologische Reaktionsbildung (Stottern, 
gastrointestinale Beschwerde usf.) sich zuruckbildeten. 

Andererseits korrelierte die vom behandelnden Arzt eingeschatzte Koopera- 
tionsbereitschaft des Patienten (.compliance 1 ) signifikant mit einer haufigeren 
Reprasentanz der Reaktion ,,Bejahen“ und einer geringeren psychophysiologi- 
schen Reaktionsbildung in der Auseinandersetzung mit der Krankheit und der 
auBerberuflichen Umwelt. 

Diese Studie konnte nicht die Hintergrunde der Auswahl dieser oder jener 
Reaktionsform aufweisen, wohl aber die Interaktion zwischen Belastungsgrad, 
Intervention (Beginn der Heimselbstbehandlung), Grad der Motiviertheit des 
Patienten (Compliance) und des korrespondierenden psychologischen Reak- 
tionsmusters. In einer von U. Lehr betreuten Arbeit von Scharnweber (1980) 
tiber die Auseinandersetzung von Dialysepatienten mit ihrer Situation hoffen 
wir diese Interaktion noch naher klaren zu konnen. Wir glauben, daB Unter- 
suchungen an Patienten, die sich mit einem so hohen gesundheitlichen Bela- 
stungsgrad auseinandersetzen miissen, auch fur die Interventionsgerontologie 
von Bedeutung sein kbnnen. 



Reaktionen auf , Life-stress’ im Alter 

In vielen AuBerungen liber psychische Reaktionen auf Belastung im Alter wird 
auf Apathie, Depression, Angst und Hilflosigkeit als dem dominierenden Syn- 
drom verwiesen. Dieses Altersstereotyp wurde auch von dem Psychologen 
Seligman ( 1979)ubernommen; die Folge von unabanderlichen, der eigenen 
Kontrolle entzogenen Verluste, die mit dem Alter verbunden sind, ftthre un- 
weigerlich zu der Ausbildung eines Verhaltenssyndroms, das er als ,,erlernte 
Hilflosigkeit“ umschrieb. 

Die systematische Erkundung der Reaktionsformen auf gesundheitliche und/ 
oder okonomische Belastung im hoheren Alter mittels ausfiihrlicher Inter- 
views und biographischer Anamnese zeigt demgegenuber, daB Seligman" s an 
Hunden im Pawlow-Geschirr orientierte Theorie der ..erlernten Hilflosigkeit 11 
bestenfalls auf eine sehr kleine Gruppe von institutionalisierten bzw. auf Fami- 
lienpflege angewiesenen alteren Patienten anwendbar ist. Erkundet man die 
Formen der Reaktion auf Belastung in den erwahnten Bereichen bei einer 
einigermaBen reprasentativen Stichprobe alterer Personen, dann wird deutlich. 
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daB in der Regel sehr aktive und angepaBte Formen der Auseinandersetzung 
gewahlt werden. Unter dem EinfluB von kognitiven Systemen wie jenem der 
Uberzeugung von der Unveranderlichkeit von Belastungssituationen im Alter 
konnen allerdings eher depressive und evasive Verhaltensweisen die Oberhand 
gewinnen, daneben aber auch aktive Reaktionen wie Widerstand gegen die 
Ausfiihrung arztlicher Ratschlage in bezug auf Aktivitat, Ernahrung, Nikotin- 
und AlkoholgenuB (vgl. Thomae & Kranzhoff, 1979). Die biographische Ver- 
ankerung dieser kognitiven Systeme wurde durch die systematische Auswer- 
tung von Gesprachsaufzeichnungen aus einer zwolfjahrigen Beobachtungszeit 
bei einer kleinen Stichprobe der Bonner Gerontologischen Langsschnittstudie 
erkennbar, derzufolge zum Teil schon zehn Jahre vor der Messung der Uber- 
zeugung der Unveranderlichkeit von Belastung bei Personen mit iiberdurch- 
schnittlichen Werten in dieser Skala die Thematik ..Bestimmtsein von der End- 
gliltigkeit des eigenen Geschicks“ deutlicher ausgepragt war als bei jenen mit 
unterdurchschnittlichen Werten. 



7 . Das Problem der Objektivitat der biographischen Methode 

Burgess (1945) hat die biographische Methode mit dem Mikroskop des Biolo- 
gen verglichen. Die Fallstudie erfiille im sozialwissenschaftlichen Bereich die 
Aufgaben der Vergroberung und des Durchdringens zu dem, was unter der 
Oberflache des auBerlich Beobachtbaren zutage tritt, wie dies das Mikroskop 
dem Biologen ermogliche. 

Es ist allerdings ein offenes Geheimnis, daB der wissenschaftliche Standard der 
biographischen Technik in den genannten Disziplinen bzw. in den Richtungen 
der Disziplinen, in denen sie angewandt wird. starke Unterschiede aufweist. 
Linton (1945) etwa, der aufgrund seiner Zusammenarbeit mit Kardiner kaum 
als Gegner der Psychoanalyse angesehen werden kann, stellt fest, daB die 
meisten psychoanalytischen Falldarstellungen aufgrund subjektiver Stellung- 
nahmen gewonnen seien ,,und nicht jener Art von Beweis unterworfen werden 
konnen, wie sie von Mitarbeitern einer exakten Wissenschaft gefordert werden 
muBte“. 

Eine erstmalige Zusammenstellung dessen, was man von einer wissenschaft- 
lich haltbaren Biographie wie Falldarstellung verlangen milsse, wurde von 
Jaspers einerseits, von Romein fur die geisteswissenschaftlich-historische Bio- 
graphik andererseits gegeben. Dollard (1935) gab vor 45 Jahren ,,Kriterien“ flir 
die Darstellung biographischen Materials, die Allport und andere einer Revi- 
sion unterzogen (vgl. u.a. De Waele, 1974; Dailey, 1972; 1975). FaBt man die 
Thesen dieser Autoren mit eigenen Erfahrungen zusammen, so ergibt sich eine 
Reihe relativ umschreibbarer Forderungen an den Bearbeiter einer Lebensge- 
schtchte, sofern diese einer Fragestellung in einer der anthropologischen Wis- 
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senschaften dienen soil. Diese Forderungen sind zum Teil von vornherein als 
nicht restlos erfilllbar zu bezeichnen. Dennoch mlissen sie als Ziel standig 
gegenwartig sein und in moglichst grofier Annaherung zu erreichen versucht 
werden. 

1. Die Forderung nach Uberschaubarkeit der Bedingungen, unter denen ein 
berichtetes Phanomen und der Bericht dariiber zustande kamen, ist ein Gegen- 
stiick zu der Forderung nach Kontrollierbarkeit und Variierbarkeit der Bedin- 
gungen eines Versuchsablaufs, die etwa die experimentelle Psychologie stellt. 

2. Die Forderung nach Unvoreingenommenheit ist eine wesentliche Vorbedin- 
gung der eben erwahnten Vergleichbarkeit von Untersuchungen verschiedener 
Autoren zum gleichen Thema, es sei denn, man setzt voraus, daB jeder Ver- 
gleichende die eigenen Vorannahmen ohne weiteres teile. Dies scheint weit- 
gehend bei alien tiefenpsychologischen und psychoanalytischen Falldarstellun- 
gen so zu sein, die dem ohne weiteres stimmig erscheinen, der das Vokabular 
und die hauptsachlichen Theorien ubernahm, die aber dem oft genug absurd 
erscheinen miissen, der die von dem urspriinglichen Beobachter gestellten 
,,Grundannahmen“ nicht anerkennen kann. 

Im iibrigen gibt es Behinderungen der Unvoreingenommenheit, welche nicht 
durch theoretische Einfliisse, sondern durch die personliche, soziale und be- 
rufliche Interessiertheit des Berichtenden an gewissen Endergebnissen bedingt 
sind. Sie schranken z.B. den Wert fast jeder Autobiographie ein, so unent- 
behrlich diese fur die Bearbeitung soundso vieler Fragestellungen sein mag. 
Die Bedingungen der Selbstauffassung und Selbsterkenntnis, die jede Autobio- 
graphie nur zu leicht zum Mittel der Erhohung, Bemitleidung, Rechtferti- 
gung, Verteidigung oder Verklarung des eigenen Selbst werden lassen, gestat- 
ten eine Verwendung der Autobiographie unter besonderen Kautelen, zu de- 
nen etwa die eingehende Beurteilung des Berichters hinsichtlich seiner Fahig- 
keit gegeniiber sich selbst gehort. 

3. Die Forderung nach Konkretheit der Aussagen wird nahegelegt angesichts 
vieler Argumentationen geisteswissenschaftlicher Psychologen, Soziologen 
oder Philosophen, sofern sie sich zum Beweis fur diese oder jene These auf 
einen ,,Fall“ oder eine ,,Lebensgeschichte“ berufen, ohne sich aber um eine 
nahere Kennzeichnung der Begebenheit - und schon gar nicht um eine solche 
in soziologischer, historischer oder charakterologischer Hinsicht - zu bemti- 
hen. Solche auf keinen Fall zu entbehrenden Hinweise auf die soziologische 
Einbettung eines Lebensablaufes oder auf seine Farbung durch eine spezifische 
Temperamentslage und seine Determination durch eine spezifische historische 
Gegebenheit bediirfen im iibrigen durchaus nicht langer Worte, sondern kon- 
nen in wenigen knappen Siitzen gegeben werden. 

4. Die Forderung nach Vollstandigkeit der darzustellenden Lebensgeschichte 
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ist wie alle hier erhobenen eine ideale, welche nur in mehr oder minder groBer 
Annaherung erfullt werden kann. Sie kann sich nur beziehen auf die Verwer- 
tung all dessen, was an Daten und Materialien liber einen Bios erreichbar ist. 
„Es gibt keinen Befund, der nicht zur Biographie gehorte und keinen, bei dem 
nicht sein Ort in der Zeit relevant ware und sei es sein Charakter der Dauer 
durch ein Leben." (Jaspers, 1962, S. 563). Der Hinweis auf die Wichtigkeit des 
Details findet sich bei alien historischen Biographien, von Plutarch iiber Bos- 
well bis zu Romein und Andre Maurois (vgl. Romein). 

Diese Forderung nach Vollstandigkeit ist freilich in ihrer praktischen Anwen- 
dung relativ zu nehmen, d.h. auf die Flille des gebotenen Materials und den zu 
behandelnden Stoff bzw. die Art des zu behandelnden Problems zu beziehen. 
Welche Folgen eine liickenlose Aufzahlung aller Verhaltensweisen - ware sie 
iiberhaupt zu erreichen - ftir den Umfang von ,,Fallstudien“ hatte, mag der 
Hinweis auf die sorgfaltigen und den Kinderpsychologen noch heute unent- 
behrlichen Beobachtungen von Jaehner (1930) liber zwei Tage aus dem Leben 
zweier Geschwister zeigen: Die einfache Wiedergabe der beobachteten Situa- 
tionen und Verhaltensweisen ergab ohne Kommentar 113 z.T. eng bedruckte 
Seiten (vgl. auch Barker & Wright, 1955). Dort, wo infolge ahnlich reichlich 
flieBender Quellen nicht alles in die Niederschrift aufgenommen werden kann, 
empfiehlt es sich, vorher einen Verhaltenskatalog anzulegen, der in das Schema 
der wichtigsten Lebensabschnitte des zu beschreibenden Individuums einge- 
tragen wird. Wesentlich ist dabei, moglichst ein Bild aller Beziige des Darge- 
stellten zu erhalten und sowohl jene oft schon selbstverstandliche Zentrierung 
der Reaktionen um die Sphare von GenuB- und Behauptungswerten zu ver- 
meiden, wie sie nicht nur die psychoanalytischen Arbeiten kennzeichnet, als 
auch jene Lebensbilder aus der Perspektive engherzig gewordener Flirsorgebe- 
amten, auf die sich viele Schilderungen von sozial auffallig gewordenen Per- 
sonlichkeiten - auch in der gelehrtesten psychopathologischen Literatur - 
beschranken. 

Biographische Darstellungen wie im iibrigen jede charakterologische Schilde- 
rung miissen Vollstandigkeit auch in dem Sinne anstreben, daB sie nicht nur 
die von bestimmten sozialen Normen aus festzustellenden Mangel des be- 
schriebenen Menschen registrieren, sondern auch positive Aussagen darliber 
machen, wie einem Menschen sich das Dasein von innen gesehen moglich 
macht. 

Unsere wiederholten Einwande gegenilber der Psychoanalyse wollen im iibri- 
gen nicht darliber tauschen, daB gerade aus ihrem Kreise die eindeutigsten 
Angaben iiber Kriterien der Vollstandigkeit einer Biographie kanien, und zwar 
zum einen von Dollard, zum andern von Kardiner und Murray. 

Dollard nennt sieben Punkte, die beachtet werden miissen, damit eine ,, life- 
history" als vollstandig bezeichnet werden konne. Zu ihnen gehort: 
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1. Die ,,Betrachtung des Subjekts als ein Exemplar in einer kulturellen Reihe“, 

2. die Anerkennung der sozialen Bedeutung der biologischen Motivation, 

3. die Berucksichtigung der Rolle der Familie bei der Ubermittlung des zivilisatori- 
schen Standpunktes, 

4. der Aufweis der Art der Verarbeitung von biologischen Faktoren im sozialen Ver- 
halten, 

5. die Wiedergabe moglichst aller fur das Individuum bedeutsamen Eindriicke vom 
Kindes- bis zum Erwachsenenalter, 

6. die sorgfaltige und kontinuierliche Spezifizierung der sozialen Situation, 

7. die begriffliche Einordnung des Materials der life-history. 

Dollard glaubt an Hand einer Gegeniiberstellung je einer Falldarstellung von 
Adler, Taft, Freud, Thomas und Znaniecki, Clifford, R. Shaw und H. G. 
Wells zu zeigen, daB Freud diesen sieben Punkten und damit den Erfordernis- 
sen einer Vollstandigkeit der Biographie am meisten gerecht wird. Es steht nun 
freilich dahin, ob man aus dieser Feststellung - wie Allport dies tut - folgern 
muB, die Prinzipien von Dollard seien eben nichts als angewandter Freudianis- 
mus und entsprachen keinen realen Erfordernissen. Immerhin enthalten die 
Kriterien von Dollard in (1), (3), (5) und (6) Forderungen, wie sie die gesamte 
sozialanthropologische Schule von Malinowski bis zu Kimball Young vertritt, 
namlich die genaue Spezifizierung der kulturellen, soziologischen und okono- 
mischen Faktoren, welche die Entwicklung des Individuums beeinflussen 
konnten. Dieser Forderung ist in den meisten deutschen Falldarstellungen 
wenig Rechnung getragen worden, da hier konstitutionelle Faktoren und nicht 
situative im Mittelpunkt der Beachtung stehen. Sucht man die hier bereits 
erorterten Gesichtspunkte einer Beurteilung der Vollstandigkeit von Lebens- 
geschichten zusammen mit den nicht eigens explizierten von Kardiner und 
Murray auf einige wenige, daflir aber unbedingt verpflichtende Punkte zu 
reduzieren, so laBt sich sagen: die Lebensgeschichte (Falldarstellung) muB 

a) den kulturellen, soziologischen und okonomischen Rahmen skizzieren, in dem sich 
ein Bios vollzieht, 

b) sie muB jeweils festzustellen suchen, wieviel von diesem Rahmen subjektiv bedeut- 
sam wird und wieviel nicht, 

c) sie muB die konstanten Merkmale einer Personlichkeit in den verschiedenen Lebens- 
abschnitten (wie etwa die GroBe und Richtung des Antriebs, Differenzierungs- und 
Strukturierungsgrad, Intro- bzw. Extraversion, Art der Grundstimmung, Steuerung 
unter Angabe des fiihrenden dynamischen Kerngebietes) festhalten, 

d) sie muB die Varianten des Verhaltens in den verschiedenen Lebensepochen moglichst 
sorgfaltig zu erkennen geben, also die meist nur schwer zuganglichen Veranderungen 
und Wandlungen im Personlichkeitsgefiige, wie sie etwa in den Begriffen Verfesti- 
gung, Erstarrung, Lockerung, Vertiefung, Verflachung, Verinnerlichung, Distanzie- 
rung, Vergroberung, Versandung usw. zutage treten; 

e) sie muB den zu betrachtenden Bios nicht nur von bestimmten sozialen Normen, 
sondern auch von den fur ihn wesentlichen Anliegen aus zu erfassen suchen. Insbe- 
sondere muB in einer Biographie ebenso wie in der kleinen Falldarstellung erkennbar 
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werden, wie ein Mensch sich das Dasein moglich zu machen sucht und nicht nur, 
was die Sozietat an ihm vermiBt bzw. auszusetzen hat. 

Bei vielen literaturhistorischen und politisch-historischen Biographien bediirf- 
te es sehr umfangreicher historischer Fachkenntnisse, um die Qualitat der 
Quellen einer Biographie beurteilen zu konnen. Deshalb wird ein systemati- 
scher Gebrauch solcher Biographien erst durch eine interdisziplinare Zusam- 
menarbeit ermoglicht werden. Diese ist im Augenblick kaum gegeben. 

Gegeniiber der Intensitat der Bemiihungen um groBtmogliche Objektivitat der 
biographischen Methode, wie sie in den Jahren ihrer Entstehung zu bemerken 
waren, mlissen neuere Versuche (z.B. Friedrichs & Kamp, 1978) als unzurei- 
chend angesehen werden. Zur Belebung der aktuellen Diskussion und zur 
Abklarung der Position der biographischen Methode muB diese mit dent expe- 
rimentellen Vorgehen kritisch verglichen werden. Es ware auch denkbar, daB 
auf diesem Hintergrund neue Kriterien an die biographische Methode gestellt 
werden mttssen, die die hier aufgeftihrten erganzen. 

Im Rahmen der Gegenuberstellung von biographischer Methode und deni 
experimentellen Vorgehen sollen die aufgefiihrten Forderungen und deren Er- 
fiillbarkeit mit den Ansprlichen des psychologischen Experiments verglichen 
werden. Zur Strukturierung dieser Gegenuberstellung werden in Tabelle 1 die 
entsprechenden Kriterien aufgelistet. 



Tabelle 1: Gegenuberstellung von Kriterien, die an die Biographik und das 
experimentelle Vorgehen angelegt werden miissen. 



Kriterien an die Biographik Kriterien an das experimentelle Vorgehen 



Uberschaubarkeit der Bedin- Kontrollierbarkeit und Variierbarkeit der 
gungen Bedingungen 

Unvoreingenommenheit des Be- Vergleichbarkeit von Untersuchungser- 

obachters gebnissen aus verschiedenen Experi- 

menten 

Konkretheit der Aussagen Prazision der realisierten experimentellen 

Bedingungen, die die Objektivitat ge- 
wahrleisten 

Vollstandigkeit der darzustellen- Reprasentativitat der experimentellen Be- 

den Lebensgeschichte dingungen fur die Abbildung psychischer 

Realitat 



In den vorangegangenen Ausfuhrungen wurde schon die Forderung 1 mit der 
nach der Kontrollierbarkeit und Variierbarkeit der Bedingungen des Experi- 




